C# Regex Tutorial: Ce este o expresie regulată C#

Acest tutorial C# Regex explică ce este o expresie regulată în C#, sintaxa sa, metodele clasei Regex și cum se utilizează aceste metode cu ajutorul unor exemple:

Expresia regulată în C# este utilizată pentru potrivirea unui anumit model de caractere. Expresiile regulate sunt utilizate ori de câte ori un utilizator trebuie să găsească un model repetitiv sau să efectueze o validare a datelor sau chiar să verifice formatarea datelor.

Un RegEx este utilizat pentru a afla dacă un șir de caractere conține sau se potrivește cu un anumit model de caractere. Un regex este în primul rând o secvență de caractere care denotă un model.

Un model poate fi orice, de la numere, caractere sau o combinație a tuturor. Regex este utilizat pe scară largă pentru validare, analiza sau potrivirea șirurilor de caractere, de exemplu, aflarea dacă un șir de caractere se potrivește cu formatul valutar, numărul de telefon sau formatul datei.

Clasa Regex în C#

Clasa Regex este utilizată în C# pentru a efectua operații regex. Aceasta conține mai multe metode diferite care pot fi utilizate pentru a efectua diferite operații legate de regex.

Acesta poate fi utilizat pentru a analiza un text de mari dimensiuni pentru a găsi o anumită secvență de caractere prin utilizarea unor metode care pot fi utilizate pentru a efectua o potrivire, pentru a înlocui sau pentru a diviza secvența de caractere.

Clasa regex este prezentă în interiorul spațiului de nume System.Text.RegularExpression. Clasa acceptă ca parametru un șir de caractere sub forma unei secvențe de caractere.

Metode C# Regex

IsMatch

Cea mai simplă și cea mai utilă metodă din clasa Regex este metoda IsMatch. Această metodă are diferite supraîncărcări pentru a efectua potrivirea caracterelor pe baza unor parametri diferiți.

Cel mai simplu este

Înlocuiește(String text, String replacementText)

Metoda replace acceptă doi parametri și returnează o valoare de șir de caractere. Primul parametru este secvența de caractere sau regex pe care doriți să o utilizați pentru potrivire, iar al doilea este înlocuirea regex-ului.

Metoda funcționează prin găsirea unei corespondențe a textului dat și apoi înlocuiește textul cu textul de înlocuire furnizat de utilizator. Semnătura metodei este public string Replace(string text, string replacementText)

Public string[] Split(string text)

Metoda split din clasa regex acceptă șirul de caractere ca parametru și returnează o matrice care conține subșiruri. Parametrul transmis în metodă este șirul care trebuie divizat.

Metoda găsește modelul de intrare corespunzător în șirul de caractere și, odată ce identifică orice model de potrivire, împarte șirul în acel loc în subșiruri mai mici, fiecare model de potrivire fiind punctul de rupere. Metoda returnează apoi un tablou care conține toate subșirurile.

Utilizarea metodelor Regex C#

Să aruncăm o privire la utilizarea acestor metode prin scrierea unui program simplu.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World"))); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(string input, stringreplacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } } 

Rezultatul programului de mai sus

Adevărat

Adevărat

Adevărat

Înlocuiți lumea

Bună ziua

Lumea

Astăzi

Explicația pentru codul de mai sus:

La începutul programului, am creat un obiect și pentru modelul pe care îl vom folosi pentru potrivirea codului în introducerea ulterioară a șirului de caractere, am folosit formatarea textului pentru a păstra lucrurile simple la început, dar dacă vă simțiți confortabil, puteți începe să folosiți modele de expresii regulate. (Vom discuta în detaliu modelul de expresii regulate pe măsură ce avansăm în acest tutorial)

Apoi, vom folosi șirul de caractere pentru a introduce factorul pe care l-am declarat ca obiect specificat cu șirul de caractere de intrare, iar dacă se potrivește, atunci se va returna fals.

Următoarea metodă pe care am folosit-o este IsMethod(string input, int index). Această metodă acceptă doi parametri, iar aici furnizăm șirul de caractere de intrare și indexul de la care trebuie să înceapă potrivirea. De exemplu, aici am dorit să începem potrivirea de la începutul șirului de intrare.

Apoi am demonstrat utilizarea funcției IsMatch(string input, string pattern). Aici am furnizat șirul de intrare, apoi am dorit să aflăm dacă textul modelului este prezent sau nu în intrare. Dacă este prezent, atunci se va returna true (ca în cazul nostru), altfel se va returna false.

O altă metodă pe care am discutat-o este înlocuită. Această metodă este foarte utilă în programele în care doriți să faceți modificări ale datelor de intrare sau să schimbați formatul datelor existente.

Aici furnizăm doi parametri, primul este șirul de intrare, iar cel de-al doilea este șirul care poate fi utilizat pentru a înlocui șirul anterior. Această metodă utilizează, de asemenea, modelul definit în obiectul regex pe care l-am definit mai devreme.

O altă metodă importantă pe care am folosit-o este split. Această metodă este utilizată pentru a diviza șirul dat pe baza unor modele recurente. Aici, am furnizat un șir "Hello_World_Today".

Să presupunem că dorim să eliminăm liniuța de subliniere din șirul dat și să obținem subșirurile. Pentru aceasta, specificăm parametrul de intrare și apoi dăm modelul pe care trebuie să îl folosim ca punct de divizare. Metoda returnează o matrice și putem folosi o buclă simplă, cum ar fi foreach, pentru a prelua toate șirurile.

Sintaxa expresiilor regulate

Există mai multe sintaxe diferite, cum ar fi caracterele speciale, cuantificatorii, clasele de caractere etc., care pot fi utilizate pentru a potrivi un anumit model dintr-o intrare dată.

În această parte a tutorialului, ne vom scufunda adânc în sintaxa oferită de regex și vom încerca să rezolvăm câteva scenarii din viața reală cu ajutorul acestora. Înainte de a continua, asigurați-vă că ați dobândit ideea de bază a regex și diferitele metode disponibile în cadrul clasei regex.

Caractere speciale

Caracterele speciale într-un regex sunt utilizate pentru a atribui mai multe semnificații diferite unui model. Vom examina în continuare câteva dintre caracterele speciale utilizate pe scară largă și semnificația lor în Regex.3

Caractere speciale Adică
^ Aceasta este una dintre cele mai utilizate sintaxe. Aceasta indică începutul, cuvântul sau modelul după care începe potrivirea de la începutul textului de intrare.
$ Acest semn este utilizat pentru potrivirea cuvintelor de la sfârșitul șirului. Cuvintele/modelele indicate înainte de acest simbol se vor potrivi cu cuvintele prezente la sfârșitul șirului.
. (punct) Punctul este utilizat pentru a potrivi un singur caracter din șirul dat care apare o singură dată.
\n Se utilizează pentru o linie nouă.
\d și \D Litera minusculă "d" este utilizată pentru a se potrivi cu un caracter de cifră, iar litera "D" majusculă este utilizată pentru a se potrivi cu caractere care nu sunt cifre.
\s și \S Litera minusculă "s" este utilizată pentru a se potrivi cu spațiile albe, iar litera "S" majusculă este utilizată pentru a se potrivi cu spațiile care nu sunt albe.
\w și \W Litera minusculă "w" este utilizată pentru a se potrivi cu caracterele alfanumerice/subliniare, iar litera majusculă "W" este utilizată pentru a se potrivi cu caractere care nu sunt cuvinte.

Sintaxa cuantificatorului

Sintaxa cuantificatorului este utilizată pentru a număra sau cuantifica criteriile de potrivire. De exemplu, dacă doriți să verificați dacă un anumit șir de caractere conține un alfabet de una sau mai multe ori. Să aruncăm o privire la unii dintre cuantificatorii utilizați în mod obișnuit în expresiile regulate.

Sintaxa cuantificatorului Adică
* Acest simbol este utilizat pentru a se potrivi cu caracterul precedent.
+ Acest simbol este utilizat pentru a potrivi unul sau mai multe caractere într-un rând.
{n} Cifra numerică din interiorul acoladei este utilizată pentru a se potrivi cu numărul caracterului precedent definit de numeric în interiorul acoladei.
{n,} Numeralul din interiorul parantezelor curbe și acest simbol este utilizat pentru a se asigura că se potrivește cu cel puțin n (adică valoarea numerică din interiorul parantezelor).
{n, m} Acest simbol este utilizat pentru a potrivi caracterul precedent de la un număr de n ori la un număr de m ori.
? Acest simbol face ca caracterele precedente să se potrivească ca fiind opționale.

Clasa de caractere

Clasa de caractere este cunoscută și sub numele de seturi de caractere și este utilizată pentru a indica motorului regex să caute o singură potrivire din mai multe caractere. O clasă de caractere se potrivește doar cu un singur caracter, iar ordinea caracterelor incluse în setul de caractere nu contează.

Clasa de caractere Adică
[ range ] Simbolul parantezei pătrate este utilizat pentru a căuta un interval de caractere. De exemplu, îl putem utiliza pentru a defini orice caracter din intervalul cuprins între literele alfabetului "a" și "z", prin includerea intervalului în interiorul parantezei, de exemplu [a-z]

Sau, putem, de asemenea, să ne potrivim cu cifrele de la "1" la "9", denotând [1-9]

[^ interval] Aceasta denotă clasa de caractere de negare. Este utilizată pentru a se potrivi cu orice lucru care nu se află în intervalul indicat în interiorul parantezei.
\ Aceasta este utilizată pentru a se potrivi cu caracterele speciale care pot avea propriile simboluri regex. Bara oblică este utilizată pentru a se potrivi cu caracterele speciale în forma lor literală.

Gruparea

Parantezele rotunde sau parantezele pot fi utilizate pentru a grupa o parte a expresiei regulate. Acest lucru permite utilizatorului să adauge un cuantificator la expresie.

Gruparea Adică
( expresie de grup ) Parantezele rotunde sunt utilizate pentru a grupa o expresie.
The

Exemple de expresii regulate în C#

În secțiunea anterioară, am învățat despre simbolurile expresiilor regulate, în această secțiune vom examina în detaliu utilizarea diferitelor simboluri în expresiile regulate și combinația în care pot fi folosite pentru a se potrivi cu diferite expresii.

În acest tutorial, vom discuta unele dintre cele mai des întâlnite scenarii din viața reală cu care vă puteți confrunta în calitate de dezvoltator în timp ce lucrați la o aplicație sau la un program simplu pentru a obține informații de la utilizator.

Exemplu de expresie regulată cu scenarii din viața reală

Să aflăm mai multe despre expresiile regulate folosind câteva exemple în timp real.

Scenariul 1: Validați dacă șirul de intrare este compus din caractere alfabetale de 6 cifre fără deosebire de majuscule și minuscule.

Cel mai frecvent scenariu pentru expresiile regulate este găsirea și potrivirea unui anumit cuvânt. De exemplu, să spunem că vreau un șir alfabetic aleatoriu de la utilizator și că această intrare trebuie să aibă exact 6 cifre.

Pentru a valida acest lucru, putem folosi o expresie regulată simplă. Să scriem un program pentru a înțelege mai bine scrierea și utilizarea expresiilor regulate.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); //Când modelul se potrivește Console.WriteLine(reg.IsMatch("Helios"))); //Când modelul nu se potrivește Console.WriteLine(reg.IsMatch("Helo"))); } 

Ieșire

Adevărat

Fals

Explicație

În acest exemplu, încercăm să validăm un șir de caractere de intrare, pentru a verifica dacă acesta conține caractere alfabetice de șase cifre. Caracterele pot fi atât în minuscule, cât și în majuscule, așa că trebuie să ținem cont și de acest aspect.

Deci, aici am definit un model de expresie regulată în variabila "patternText" și apoi l-am trecut în obiectul regex. Acum, următoarele linii de cod sunt destul de simple, am folosit metoda IsMatch pentru a compara expresia regulată și șirul de intrare.

Să ne uităm acum la expresia regulată pe care am conceput-o. Expresia (^[a-zA-Z]{6}$) este formată din 4 părți diferite: "^", "[a-zA-Z]", "{6}" și "$". A doua parte denotă caracterele de potrivire, care sunt folosite pentru a efectua potrivirea expresiei, "a-z" pentru litere mici și "A-Z" pentru litere mari.

Caracterul "^" din prima parte garantează că șirul începe cu un model definit în a doua parte, adică alfabetul cu majuscule și minuscule.

Parantezele din a treia parte determină numărul de caractere din șirul de caractere care pot fi identificate prin modelul definit, adică 6 în acest caz, iar simbolul "$" asigură că se termină cu modelul definit în a doua parte.

^[a-zA-Z]{6}$

Scenariul 2: Utilizați expresia regulată pentru a valida dacă un cuvânt care începe cu "Super" și are spațiu alb după el, adică pentru a valida dacă "Super" este prezent la începutul unei propoziții.

Să presupunem că citim datele introduse de utilizator și trebuie să ne asigurăm că utilizatorul își începe întotdeauna propoziția cu un anumit cuvânt, număr sau alfabet. Acest lucru poate fi realizat destul de ușor prin utilizarea unei expresii regulate simple.

Să ne uităm la un exemplu de program și apoi să discutăm în detaliu despre cum se scrie această expresie.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); //Când modelul se potrivește Console.WriteLine(reg.IsMatch("Super man")); //Când modelul nu se potrivește Console.WriteLine(reg.IsMatch("Superhero"));); } 

Ieșire

Adevărat

Fals

Explicație

Și în acest exemplu am folosit o configurație de cod similară cu cea din primul exemplu. Modelul expresiei regulate din acest scenariu necesită o potrivire cu o combinație de cuvinte sau propoziții care încep cu "Super".

^Super

Deci, deoarece dorim să ne potrivim de la începutul seriei de cuvinte, vom începe prin a pune simbolul "^", apoi vom da modelul pe care dorim să îl potrivim, în acest caz, "Super". Acum, modelul pe care l-am creat "^Super" se poate potrivi cu toate valorile lui super, chiar și superman sau supernatural, dar nu vrem doar cuvântul "Super".

Acest lucru înseamnă că ar trebui să existe un spațiu alb după cuvânt pentru a marca sfârșitul cuvântului și începutul altui cuvânt. Pentru a face acest lucru, vom adăuga simbolul "\s" la model și, astfel, modelul nostru final va fi următorul

^Super\s

Scenariul 3: Utilizați expresia regulată pentru a găsi nume de fișiere valide cu o extensie de tip imagine.

Un alt scenariu important în timp real cu care se confruntă adesea dezvoltatorii este validarea tipurilor de fișiere. Să presupunem că avem un buton de încărcare în interfață, care poate accepta doar extensii de tip imagine.

Trebuie să validăm fișierul încărcat de utilizator și să îl informăm în cazul în care a încărcat un format de fișier greșit. Acest lucru poate fi realizat cu ușurință prin utilizarea expresiei regulate.

Mai jos este prezentat un program simplu pentru a verifica acest lucru.

 public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); //Când modelul se potrivește Console.WriteLine(reg.IsMatch("abc.jpg"))); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png"))); //Când modelul nu se potrivește Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj"))); 

Ieșire

Adevărat

Adevărat

Adevărat

Fals

Fals

Explicație

Aici trebuie să potrivim un nume de fișier. Un nume de fișier valid este compus din trei părți ( numele fișierului + . + extensia fișierului ). Trebuie să creăm o expresie regulată care să se potrivească cu toate cele trei părți. Să începem prin a potrivi prima parte, adică numele fișierului. Un nume de fișier poate conține caractere alfanumerice și speciale.

După cum am discutat mai devreme, simbolul care indică acest lucru este "\w". De asemenea, numele fișierului poate avea unul sau mai multe caractere, așa că vom folosi simbolul "+". Combinându-le, vom obține simbolul pentru prima parte.

 (\w+) 

Bracket a segregat acest lucru în părți. Următoarea parte este simbolul punct. Deoarece simbolul punct are semnificația sa într-un regex, vom folosi o backslash înainte de acesta pentru a-i da o semnificație literală. Combină-le pe amândouă și avem primele două părți ale regex-ului acoperite.

 (\w+)\. 

Acum, pentru a treia și ultima parte, putem defini direct extensiile de fișiere necesare, separate prin "

 (\w+)\.(jpg 

Acum, dacă folosim acest lucru în program, putem vedea că se potrivește cu formatul corect și returnează true, dar cu formate invalide, returnează false.

Scenariul 4: Utilizați expresia regulată pentru a valida formatul adresei unui site web

Să presupunem că avem un formular web care acceptă o adresă web sau o adresă de domeniu. Dorim ca utilizatorul să introducă adresa web/domeniu corectă în timp ce completează formularul. Pentru a determina dacă utilizatorul a introdus o adresă web corectă, o expresie regulată poate fi foarte utilă.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com 

Ieșire

Adevărat

Fals

Explicație

Un nume de domeniu valid începe cu abrevierea "www", urmată de un punct (.), apoi de numele site-ului web, după care urmează un punct (.) și la sfârșit o extensie de domeniu.

Deci, similar scenariului anterior, vom încerca să potrivim parte cu parte. Să începem mai întâi prin a potrivi partea "www." Deci, începem cu simbolul de început, apoi ca "www." Este ceva fix, așa că folosim simbolul de început urmat de cuvintele exacte pentru a le potrivi.

 "^www." 

Apoi vom începe să lucrăm la a doua parte. A doua parte a adresei web poate fi orice nume alfanumeric. Deci, aici vom folosi parantezele pătrate prezente în clasa de caractere pentru a defini intervalul care trebuie să fie potrivit. După adăugarea celei de-a doua părți cu a doua parte ne va da.

 “^www.[a-zA-Z0-9]{3,20}” 

Aici am adăugat, de asemenea, paranteze ondulate pentru a defini lungimea minimă și maximă a caracterelor pentru numele site-ului web. Am dat un minim de 3 și un maxim de 20. Puteți da orice lungime minimă sau maximă doriți.

Acum, după ce am acoperit prima și a doua parte a adresei web, ne-a mai rămas doar ultima parte, adică extensia domeniului. Este destul de similar cu ceea ce am făcut în ultimul scenariu, vom potrivi direct cu extensiile de domeniu folosind OR și înglobând fiecare extensie de domeniu validă în interiorul parantezei circulare.

Prin urmare, dacă adunăm toate acestea, vom avea o expresie regulată completă care să corespundă oricărei adrese web valide.

 www.[a-zA-Z0-9]{3,20}.(com 

Scenariul 5: Utilizați expresia regulată pentru a valida un format de id de e-mail

Să presupunem că avem un formular de conectare pe pagina noastră web care solicită utilizatorilor să introducă adresa de e-mail. Din motive evidente, nu dorim ca formularul nostru să continue cu adrese de e-mail invalide. Pentru a valida dacă adresa de e-mail introdusă de utilizator este corectă sau nu, putem folosi o expresie regulată.

Mai jos este prezentat un program simplu de validare a unei adrese de e-mail.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Ieșire

Adevărat

Adevărat

Fals

Explicație

O adresă de e-mail validă conține alfabete, cifre și unele caractere speciale, cum ar fi punctul (.), liniuța (-) și caracterele de subliniere (_), urmate de simbolul "@", care este urmat de numele domeniului și de extensia acestuia.

Astfel, putem împărți adresa de e-mail în patru părți: identificatorul de e-mail, simbolul "@", numele de domeniu, iar ultima parte este extensia domeniului.

Să începem prin a scrie o expresie regulată pentru prima parte. Aceasta poate fi alfanumerică cu câteva caractere speciale. Să presupunem că avem o expresie cu o dimensiune cuprinsă între 5 și 25 de caractere. Similar cu modul în care am scris-o mai devreme (în scenariul de e-mail), putem obține următoarea expresie.

 ^[a-zA-Z0-9\._-]{5,25} 

Acum, trecem la partea a doua. Este relativ ușor, deoarece trebuie să potrivim doar un singur simbol, adică "@". Adăugându-l la expresia de mai sus, obținem.

 ^[a-zA-Z0-9\._-]{5,25}.@ 

Trecând la a treia parte, adică numele de domeniu va fi întotdeauna o serie de caractere alfabetice minuscule. Dacă doriți, puteți include și caractere numerice sau caractere alfabetice majuscule, dar pentru acest scenariu, vom alege caracterele alfabetice minuscule.

Dacă adăugăm expresia pentru alfabetul minuscul cu o lungime cuprinsă între 2 și 12 caractere, atunci vom avea următoarea expresie.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12} 

Acum, ne rămâne doar expresia pentru extensia de domeniu, similar celui de-al patrulea scenariu, vom gestiona câteva extensii de domeniu specifice. Dacă doriți, puteți adăuga mai multe dintre ele, încadrându-le într-o paranteză circulară și separându-le cu un "

Consolidarea acestei expresii cu expresia anterioară ne va da valoarea expresiei finale pentru validarea e-mailului.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Concluzie

În acest tutorial, am învățat ce este expresia regulată împreună cu sintaxa/simbolurile care sunt folosite pentru a denota, construi o expresie regulată. Expresia regulată permite utilizatorului să potrivească un șir de caractere cu un model dat.

Acest lucru este destul de util în situații care necesită o validare rapidă a datelor de intrare, cum ar fi atunci când un utilizator introduce adresa de e-mail sau numărul de telefon, regex poate fi utilizat pentru a valida rapid formatul și pentru a informa utilizatorul cu privire la problema dacă acesta a introdus un format greșit.

Am învățat, de asemenea, să abordăm diferite scenarii care pot fi utilizate pentru o varietate de aplicații diferite. Am analizat procesul pas cu pas de scriere a expresiilor pentru potrivirea cuvintelor, a alfabetului, a adreselor de site-uri web, a ID-urilor de e-mail și chiar a tipurilor și extensiilor de fișiere.

Aceste scenarii sunt destul de utile în validarea în timp real a intrărilor utilizatorului fără a scrie numeroase linii de cod și, prin urmare, ajută la economisirea timpului și la reducerea complexității. Aceste exemple au fost folosite pentru a ghida utilizatorul în crearea propriului set de expresii regulate și, astfel, pentru a-l ajuta să gestioneze mai multe alte scenarii diferite.

Regex poate fi simplu, cum ar fi utilizarea alfabetului sau a cifrelor pentru a se potrivi cu o serie de caractere dată sau complex, utilizând o combinație de caractere speciale, cuantificatori, clase de caractere etc. pentru a valida formate complexe sau pentru a căuta un anumit model în seria de caractere.

Pe scurt, o expresie regulată este un instrument destul de puternic pentru un programator și ajută la reducerea cantității de cod care este necesară pentru a realiza o potrivire de date sau o sarcină de validare.

Derulați în sus