C# Regex Tutorial: Kaj je regularni izraz C#

V tem učbeniku C# Regex je razloženo, kaj je regularni izraz v C#, njegova sintaksa, metode razreda Regex in uporaba teh metod s pomočjo primerov:

Regularni izraz v jeziku C# se uporablja za ujemanje določenega vzorca znakov. Regularni izrazi se uporabljajo vedno, ko mora uporabnik najti ponavljajoči se vzorec, preveriti podatke ali celo preveriti oblikovanje podatkov.

Regex se uporablja za ugotavljanje, ali niz vsebuje dani vzorec znakov ali se z njim ujema. Regex je predvsem zaporedje znakov, ki označuje vzorec.

Vzorec je lahko kar koli, od številk, znakov ali kombinacije vseh. Regex se pogosto uporablja za potrjevanje. Razčlenjevanje ali ujemanje nizov, na primer, ugotovi, ali se niz ujema z obliko valute, telefonske številke ali datuma.

Razred regex v jeziku C#

Razred Regex se uporablja v jeziku C# za izvajanje operacij regex. Vsebuje več različnih metod, s katerimi lahko izvajamo različne operacije, povezane z regexom.

Uporablja se lahko za razčlenjevanje obsežnega besedila, da bi našli določeno zaporedje znakov z uporabo metod, ki se lahko uporabijo za ujemanje, zamenjavo ali razdelitev zaporedja znakov.

Razred regex se nahaja znotraj imenskega prostora; System.Text.RegularExpression. Razred kot parameter sprejme niz v obliki zaporedja znakov.

Metode regexa v jeziku C#

IsMatch

Najpreprostejša in najbolj uporabna metoda v razredu Regex je metoda IsMatch. Ta metoda ima različne preobremenitve za izvajanje ujemanja znakov na podlagi različnih parametrov.

Najpreprostejši je

Zamenjaj(String besedilo, String zamenjavaText)

Metoda replace sprejme dva parametra in vrne vrednost niza. Prvi parameter je zaporedje znakov ali regex, ki ga želite uporabiti za ujemanje, drugi pa je zamenjava regexa.

Metoda deluje tako, da poišče ujemanje danega besedila in ga nato nadomesti z nadomestnim besedilom, ki ga je navedel uporabnik. Podpis metode je javni niz Zamenjaj (niz Besedilo, niz ZamenjavaText)

Javno string[] Split(string text)

Metoda split iz razreda regex sprejme vhodni niz kot parameter in vrne polje, ki vsebuje podredja. Parameter, ki ga posreduje metoda, je niz, ki ga je treba razdeliti.

Metoda poišče ustrezen vhodni vzorec v nizu in ko ugotovi, da je v nizu kakršen koli ustrezen vzorec, razdeli niz na tem mestu na manjše podrezice, pri čemer je vsaka točka preloma ustrezen vzorec. Metoda nato vrne polje, ki vsebuje vse podrezice.

Uporaba metod Regex C#

Oglejmo si uporabo teh metod s preprostim programom.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World")); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(string input, stringzamenjava) Console.WriteLine(reg.Replace("Hello World", "Zamenjava")); //Split(vnos niza, vzorec niza) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr v arr) { Console.WriteLine("{0}", subStr); } } 

Rezultat zgornjega programa

Resnično

Resnično

Resnično

Zamenjajte svet

Pozdravljeni

Svet

Danes

Razlaga zgornje kode:

Na začetku programa smo ustvarili predmet in za vzorec, ki ga bomo uporabili za ujemanje kode v nadaljnjem vnosu niza, smo uporabili oblikovanje besedila, da bodo stvari na začetku preproste, če pa ste zadovoljni, lahko začnete uporabljati vzorce regularnih izrazov. (Podrobno bomo obravnavali vzorec regularnih izrazov, ko bomo napredovali v tem učbeniku)

Nato bomo uporabili niz za ujemanje za vnos faktorja, ki smo ga razglasili kot določen predmet z vhodnim nizom, in če se ujema, se bo vrnil, da vrne false.

Naslednja metoda, ki smo jo uporabili, je IsMethod(string input, int index). Ta metoda sprejema dva parametra, pri čemer navedemo vhodni niz in indeks, od koder se mora začeti ujemanje. Na primer, tukaj smo želeli začeti ujemanje z začetka vhodnega niza.

Nato smo prikazali uporabo funkcije IsMatch(string input, string pattern). Tu smo podali vhodni niz, nato pa smo želeli ugotoviti, ali je besedilo vzorca prisotno v vhodnem nizu ali ne. Če je prisotno, bo vrnil true (kot v našem primeru), sicer bo vrnil false.

Druga metoda, ki smo jo obravnavali, je metoda nadomesti. Ta metoda je zelo uporabna v programih, kjer želite spremeniti vhodne podatke ali spremeniti obliko obstoječih podatkov.

Tu podamo dva parametra, prvi je vhodni niz, drugi pa niz, s katerim lahko nadomestimo prejšnji niz. Ta metoda uporablja tudi vzorec, določen v objektu regex, ki smo ga določili prej.

Druga pomembna metoda, ki smo jo uporabili, je split. Ta metoda se uporablja za razdelitev danega niza na podlagi nekaterih ponavljajočih se vzorcev. Tu smo podali niz "Hello_World_Today".

Recimo, da želimo iz danega niza odstraniti podčrtaj in pridobiti podrejene nize. V ta namen določimo vhodni parameter in nato podamo vzorec, ki ga moramo uporabiti kot točko delitve. Metoda vrne polje in za pridobitev vseh nizov lahko uporabimo preprosto zanko, kot je foreach.

Sintaksa rednega izraza

Obstaja več različnih sintaks, kot so posebni znaki, kvantifikatorji, razredi znakov itd., ki jih lahko uporabite za ujemanje določenega vzorca iz danega vnosa.

V tem delu vaje se bomo poglobili v sintakso, ki jo ponuja razred regex, in skušali z njo rešiti nekaj resničnih scenarijev. Preden nadaljujemo, se prepričajte, da ste pridobili osnovno predstavo o regexu in različnih metodah, ki so na voljo znotraj razreda regex.

Posebni znaki

Posebni znaki v regexu se uporabljajo za dodelitev več različnih pomenov vzorcu. Zdaj si bomo ogledali nekaj pogosto uporabljenih posebnih znakov in njihov pomen v regexu.3

Posebni znaki Pomen
^ To je ena najpogosteje uporabljenih sintagem. Označuje začetek, beseda ali vzorec, za katerim se začne ujemanje od začetka vhodnega besedila.
$ Ta znak se uporablja za ujemanje besed s konca niza. Besede/vzorci, označeni pred tem znakom, se ujemajo z besedami na koncu niza.
. (pika) Pika se uporablja za ujemanje enega znaka v danem nizu, ki se pojavi enkrat.
\n Uporablja se za novo vrstico.
\d in \D Mala črka "d" se uporablja za ujemanje številčnih znakov, velika črka "D" pa za ujemanje neštevilčnih znakov.
\s in \S Mala črka "s" se uporablja za ujemanje belih prostorov, velika črka "S" pa za ujemanje nebeljenih prostorov.
\w in \W Mala črka "w" se uporablja za ujemanje alfanumeričnih znakov in znakov z manjšim številom, velika črka "W" pa za ujemanje znakov, ki niso besede.

Skladnja količnika

Sintaksa kvantifikatorja se uporablja za štetje ali kvantifikacijo meril ujemanja. Na primer, če želite preveriti, ali določen niz vsebuje abecedo enkrat ali večkrat. Oglejmo si nekaj najpogosteje uporabljenih kvantifikatorjev v regularnem izrazu.

Skladnja količnika Pomen
* Ta simbol se uporablja za ujemanje s predhodnim znakom.
+ Ta simbol se uporablja za ujemanje enega ali več znakov v vrsti.
{n} Številka znotraj oglatih oklepajev se uporablja za ujemanje s številom predhodnega znaka, ki ga določa številka znotraj oglatih oklepajev.
{n,} Številka znotraj oglatih oklepajev in ta simbol se uporabljata za zagotovitev, da se ujema vsaj z n (tj. vrednostjo številke znotraj oglatih oklepajev).
{n, m} Ta simbol se uporablja za ujemanje s predhodnim znakom od n-krat do m-krat.
? Zaradi tega simbola se predhodni znaki ujemajo kot neobvezni.

Razred znakov

Razred znakov je znan tudi kot nabor znakov in se uporablja za ukaz motorju regex, da med več znaki poišče eno ujemanje. Razred znakov bo ujemal samo en znak, vrstni red znakov, ki so v naboru znakov, pa ni pomemben.

Razred znakov Pomen
[ razpon ] Simbol oglatega oklepaja se uporablja za ujemanje z razponom znakov. Uporabimo ga lahko na primer za določitev poljubnega znaka v razponu od abecede "a" do "z", tako da razpon zapremo znotraj oklepaja, kot je [a-z].

Lahko pa se ujemamo tudi s številkami od "1" do "9", tako da označimo [1-9].

[^ obseg] Označuje razred znakov zanikanja. Uporablja se za ujemanje vsega, kar ni v območju, označenem v oklepaju.
\ Uporablja se za ujemanje posebnih znakov, ki imajo lahko svoje lastne simbole regex. Poševnica se uporablja za ujemanje posebnih znakov v njihovi dobesedni obliki.

Združevanje v skupine

Z okroglimi oklepaji ali oklepaji lahko združite del regularnega izraza. Tako lahko uporabnik izrazu doda kvantifikator.

Združevanje v skupine Pomen
( izraz skupine ) Okrogli oklepaji se uporabljajo za združevanje izraza v skupine.
Spletna stran

Primeri rednih izrazov v jeziku C#

V prejšnjem razdelku smo spoznali simbole regularnih izrazov, v tem razdelku pa si bomo podrobno ogledali uporabo različnih simbolov v regularnih izrazih in kombinacije, v katerih jih lahko uporabimo za ujemanje različnih izrazov.

V tem učbeniku bomo obravnavali nekaj najpogostejših scenarijev iz resničnega življenja, s katerimi se lahko srečate kot razvijalec med delom na aplikaciji ali v preprostem programu za pridobivanje uporabniškega vnosa.

Primer regularnega izraza s scenariji iz resničnega življenja

Naučimo se več o regularnih izrazih z nekaj primeri v realnem času.

Scenarij 1: Preverite, ali je vhodni niz sestavljen iz šestmestnih abecednih znakov, pri katerih ni občutljiv na velikost črk.

Najpogostejši scenarij za regularni izraz je iskanje in ujemanje določene besede. Na primer, recimo, da želim od uporabnika naključni abecedni niz, ki mora biti dolg natanko 6 številk.

Za potrditev lahko uporabimo preprost regularni izraz. Napišimo program, s katerim bomo bolje razumeli pisanje in uporabo regularnih izrazov.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); /Ko se vzorec ujema Console.WriteLine(reg.IsMatch("Helios")); /Ko se vzorec ne ujema Console.WriteLine(reg.IsMatch("Helo")); } 

Izhod

Resnično

Lažno

Razlaga:

V tem primeru poskušamo potrditi vhodni niz in preveriti, ali vsebuje šestmestne abecedne znake. Znaki so lahko mali in veliki, zato moramo upoštevati tudi to.

Tako smo v spremenljivki "patternText" določili vzorec regularnega izraza in ga nato prenesli v objekt regex. Naslednje vrstice kode so zelo preproste, saj smo za primerjavo regularnega izraza in vhodnega niza uporabili metodo IsMatch.

Zdaj si oglejmo regularni izraz, ki smo ga oblikovali. Izraz (^[a-zA-Z]{6}$) je sestavljen iz štirih različnih delov: "^", "[a-zA-Z]", "{6}" in "$". Drugi del označuje ujemajoče znake, ki se uporabljajo za ujemanje izraza: "a-z" za male črke in "A-Z" za velike.

Znak prvega dela "^" zagotavlja, da se niz začne z vzorcem, določenim v drugem delu, tj. z malimi in velikimi črkami.

V tretjem delu je z oglatimi oklepaji določeno število znakov v nizu, ki jih je mogoče prepoznati po opredeljenem vzorcu, tj. v tem primeru 6, simbol "$" pa zagotavlja, da se niz konča z vzorcem, opredeljenim v drugem delu.

^[a-zA-Z]{6}$

Scenarij 2: Uporabite regularni izraz za preverjanje, ali se beseda, ki se začne z "Super" in ima za njo bel prostor, tj. za preverjanje, ali je beseda "Super" prisotna na začetku stavka.

Predpostavimo, da beremo vnos uporabnika in moramo zagotoviti, da uporabnik stavek vedno začne z določeno besedo, številko ali abecedo. To lahko preprosto dosežemo z uporabo preprostega regularnega izraza.

Oglejmo si vzorčni program in nato podrobno preberite, kako zapisati ta izraz.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); /Ko se vzorec ujema Console.WriteLine(reg.IsMatch("Superman")); /Ko se vzorec ne ujema Console.WriteLine(reg.IsMatch("Superhero")); } 

Izhod

Resnično

Lažno

Razlaga:

Tudi v tem primeru smo uporabili podobno nastavitev kode kot v prvem primeru. Vzorec regularnega izraza v tem scenariju zahteva ujemanje s kombinacijo besed ali stavkov, ki se začnejo s "Super".

^Super

Ker se želimo ujemati z začetkom besedne vrste, bomo začeli z vnosom simbola "^", nato pa bomo navedli vzorec, ki se želi ujemati, v tem primeru "Super". Zdaj se vzorec, ki smo ga ustvarili "^Super", lahko ujema z vsemi vrednostmi super, celo superman ali nadnaravni, vendar ne želimo samo besede "Super".

To pomeni, da mora biti za besedo bel prostor, ki označuje konec besede in začetek druge besede. V ta namen bomo vzorcu dodali simbol "\s" in tako naredili končni vzorec

^Super\s

Scenarij 3: Uporabite regularni izraz za iskanje veljavnih imen datotek s končnico vrste slikovne datoteke.

Drug pomemben scenarij v realnem času, s katerim se razvijalci pogosto srečujejo, je potrjevanje vrst datotek. Recimo, da imamo v uporabniškem vmesniku gumb za nalaganje, ki lahko sprejme samo razširitve vrste slikovnih datotek.

Potrditi moramo datoteko, ki jo naloži uporabnik, in ga obvestiti, če je naložil napačno obliko datoteke. To lahko preprosto dosežemo z uporabo regularnega izraza.

Spodaj je naveden preprost program za preverjanje tega.

 public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); /Ko vzorec ustreza Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); /Ko vzorec ne ustreza Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj")); 

Izhod

Resnično

Resnično

Resnično

Lažno

Lažno

Razlaga:

Tu moramo določiti ime datoteke. Veljavno ime datoteke je sestavljeno iz treh delov ( ime datoteke + . + končnica datoteke ). Ustvariti moramo regularni izraz, ki bo ustrezal vsem trem delom. Začnimo z ustrezanjem prvemu delu, tj. imenu datoteke. Ime datoteke lahko vsebuje alfanumerične in posebne znake.

Kot smo že omenili, je simbol za to "\w". Tudi ime datoteke je lahko sestavljeno iz enega ali več znakov, zato bomo uporabili simbol "+". Če ju združimo, dobimo simbol za prvi del.

 (\w+) 

Oklepaj ga je razdelil na dele. Naslednji del je simbol pike. Ker ima simbol pike svoj pomen v regexu, bomo pred njim uporabili povratno poševnico, da mu damo dobesedni pomen. Združimo oba in pokrita sta prva dva dela regexa.

 (\w+)\. 

V tretjem in zadnjem delu lahko neposredno določimo zahtevane razširitve datotek, ki so ločene z "

 (\w+)\.(jpg 

Če to uporabimo v programu, vidimo, da se pri pravilnem formatu ujema in vrne true, pri neveljavnih formatih pa vrne false.

Scenarij 4: Uporaba regularnega izraza za preverjanje oblike naslova spletnega mesta

Predpostavimo, da imamo spletni obrazec, ki sprejema spletni naslov ali naslov domene. Želimo, da uporabnik pri izpolnjevanju obrazca vnese pravilen spletni naslov/naslov domene. Za ugotavljanje, ali je uporabnik vnesel pravilen spletni naslov, je lahko zelo uporaben regularni izraz.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com 

Izhod

Resnično

Lažno

Razlaga:

Veljavno ime domene se začne s kratico "www", ki ji sledi pika (.), nato ime spletnega mesta, za njim pika (.) in na koncu domenska končnica.

Podobno kot v prejšnjem scenariju ga bomo poskusili ujemati po delih. Najprej začnimo z ujemanjem dela "www." Začnemo torej z začetnim simbolom, nato pa kot "www." To je nekaj, kar je določeno, zato za ujemanje uporabimo začetni simbol, ki mu sledijo natančne besede.

 "^www." 

Nato bomo začeli delati na drugem delu. Drugi del spletnega naslova je lahko katero koli alfanumerično ime. Zato bomo tukaj uporabili oglate oklepaje, ki so prisotni v razredu znakov, za opredelitev območja, ki ga je treba uskladiti. Po dodajanju drugega dela z drugim delom bomo dobili.

 “^www.[a-zA-Z0-9]{3,20}” 

Tu smo dodali tudi oglate oklepaje za določitev najmanjše in največje dolžine znakov za ime spletne strani. Navedli smo najmanj 3 in največ 20. Navedete lahko poljubno najmanjšo ali največjo dolžino.

Zdaj, ko smo obdelali prvi in drugi del spletnega naslova, nam preostane le še zadnji del, tj. domenska končnica. To je precej podobno kot v prejšnjem scenariju, saj se bomo neposredno ujemali z domenskimi končnicami z uporabo OR in vsako veljavno domensko končnico zaprli v oglati oklepaj.

Če torej vse to seštejemo, dobimo popoln regularni izraz za ujemanje s katerim koli veljavnim spletnim naslovom.

 www.[a-zA-Z0-9]{3,20}.(com 

Scenarij 5: Uporaba regularnega izraza za preverjanje oblike e-poštnega id

Predpostavimo, da imamo na naši spletni strani obrazec za prijavo, ki od uporabnikov zahteva, da vnesejo svoj e-poštni naslov. Iz očitnih razlogov ne bomo želeli, da se naš obrazec nadaljuje z neveljavnimi e-poštnimi naslovi. Za preverjanje, ali je e-poštni naslov, ki ga je vnesel uporabnik, pravilen ali ne, lahko uporabimo regularni izraz.

Spodaj je prikazan preprost program za preverjanje e-poštnega naslova.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Izhod

Resnično

Resnično

Lažno

Razlaga:

Veljavni e-poštni naslov vsebuje abecede, številke in nekatere posebne znake, kot so pika (.), pomišljaj (-) in podčrtaj (_), ki jim sledi simbol "@", nato pa ime domene in domenska končnica.

Tako lahko e-poštni naslov razdelimo na štiri dele, tj. e-poštni identifikator, simbol "@", ime domene in zadnji del je domenska končnica.

Začnimo s pisanjem regularnega izraza za prvi del. Ta je lahko alfanumerični z nekaterimi posebnimi znaki. Predpostavimo, da je velikost izraza od 5 do 25 znakov. Podobno, kot smo ga zapisali prej (v scenariju za e-pošto), lahko dobimo naslednji izraz.

 ^[a-zA-Z0-9\._-]{5,25} 

Zdaj preidimo na drugi del. Ta je razmeroma enostaven, saj se moramo ujemati le z enim simbolom, tj. "@". Če ga dodamo zgornjemu izrazu, dobimo.

 ^[a-zA-Z0-9\._-]{5,25}.@ 

Če želite, lahko vključite tudi številčne ali velike abecedne znake, vendar bomo v tem scenariju uporabili male abecede.

Če dodamo izraz za male abecede z dolžino od 2 do 12 znakov, dobimo naslednji izraz.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12} 

Zdaj nam je ostal samo še izraz za domensko razširitev, podobno kot v četrtem scenariju bomo obdelali nekaj posebnih domenskih razširitev. Če želite, jih lahko dodate več, tako da jih zaprete v oglati oklepaj in jih ločite z znakom "

Če ta izraz združimo s prejšnjim izrazom, dobimo končno vrednost izraza za preverjanje e-pošte.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Zaključek

V tem učbeniku smo se naučili, kaj je regularni izraz, ter sintakso/simbole, ki se uporabljajo za označevanje in konstruiranje regularnega izraza. Regularni izraz uporabniku omogoča ujemanje niza z danim vzorcem.

To je zelo koristno v situacijah, ki zahtevajo hitro preverjanje vnosa, na primer ko uporabnik vnese svoj e-poštni naslov ali telefonsko številko, lahko regex uporabimo za hitro preverjanje oblike in obvestimo uporabnika o problemu, če je vnesel napačno obliko.

Naučili smo se tudi reševati različne scenarije, ki jih je mogoče uporabiti za različne aplikacije. Ogledali smo si postopek po korakih za pisanje izrazov za ujemanje besed, abeced, spletnih naslovov, e-poštnih id ter celo vrst in razširitev datotek.

Ti scenariji so precej uporabni pri preverjanju uporabniških vnosov v realnem času brez pisanja številnih vrstic kode in tako pomagajo prihraniti čas in zmanjšati zapletenost. Ti primeri so bili uporabljeni za usmerjanje uporabnika pri ustvarjanju lastnega nabora regularnih izrazov in mu tako pomagajo pri obravnavi več drugih različnih scenarijev.

Regex je lahko preprost, kot je uporaba abecede ali številk za ujemanje z danim nizom znakov, ali zapleten z uporabo kombinacije posebnih znakov, kvantifikatorjev, razredov znakov itd. za potrjevanje zapletenih oblik ali iskanje določenega vzorca v nizu znakov.

Skratka, regularni izraz je precej močno orodje za programerja in pomaga zmanjšati količino kode, ki je potrebna za izvedbo naloge ujemanja podatkov ali potrjevanja.

Pomakni se na vrh