C# Regex Tutorial: Hvad er et regulært udtryk i C#

Regex-klasse i C#
Konklusion

Denne C# Regex-tutorial forklarer, hvad et regulært udtryk er i C#, syntaksen, Regex-klassens metoder, og hvordan man bruger disse metoder ved hjælp af eksempler:

Det regulære udtryk i C# bruges til at matche et bestemt tegnmønster. Regulære udtryk bruges, når en bruger skal finde et gentagende mønster eller foretage en datavalidering eller endda til at kontrollere dataformatering.

En RegEx bruges til at finde ud af, om en streng indeholder eller stemmer overens med et givet tegnmønster. En regex er primært en tegnsekvens, der angiver et mønster.

Et mønster kan være alt fra tal, tegn eller en kombination af dem alle. Regex anvendes i vid udstrækning til validering, parsing eller matching af strenge, for eksempel, finde ud af, om en streng passer til valutaformat, telefonnummer eller datoformat.

Regex-klasse i C#

Regex-klassen bruges i C# til at udføre regex-operationer. Den indeholder flere forskellige metoder, der kan bruges til at udføre forskellige operationer i forbindelse med regex.

Den kan bruges til at analysere stor tekst for at finde en bestemt tegnsekvens ved hjælp af metoder, der kan bruges til at udføre et match, erstatte eller opdele tegnsekvensen.

Klassen regex findes i navnerummet System.Text.RegularExpression. Klassen accepterer en streng i form af en tegnsekvens som en parameter.

C# Regex-metoder

IsMatch

Den enkleste og mest nyttige metode i Regex-klassen er IsMatch-metoden. Denne metode har forskellige overbelastninger til at udføre matchning af tegn baseret på forskellige parametre.

Den enkleste er

Erstat(String text, String replacementText)

Metoden replace accepterer to parametre og returnerer en strengværdi. Den første parameter er den tegnsekvens eller regex, som du vil bruge til match, og den anden er erstatningen af regex'en.

Metoden fungerer ved at finde et match af den angivne tekst og erstatter den derefter med den erstatningstekst, som brugeren har angivet. Metodens signatur er public string Replace(string text, string replacementText)

Public string[] Split(string text)

Split-metoden fra regex-klassen accepterer input af en streng som parameter og returnerer et array med understrenge. Parametret, der overføres til metoden, er den streng, der skal splittes.

Metoden finder det matchende indgangsmønster i strengen, og når den identificerer et matchende mønster, opdeler den strengen på det pågældende sted i mindre delstrenge med hvert matchende mønster som afbrydelsespunkt. Metoden returnerer derefter et array, der indeholder alle delstrengene.

Anvendelse af Regex C#-metoder

Lad os se på brugen af disse metoder ved at skrive et simpelt program.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World"))); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0))); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText))); //Replace(string input, stringreplacement) Console.WriteLine(reg.Replace("Hello World", "Replace"))); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } }

Resultatet af ovenstående program

True

Erstat verden

Hej

Verden

I dag

Forklaringen på ovenstående kode:

I starten af programmet har vi oprettet et objekt og det mønster, som vi skal bruge til at matche koden i den efterfølgende strengindtastning, vi har brugt tekstformatering for at holde tingene enkle i begyndelsen, men hvis du er fortrolig med det, kan du begynde at bruge mønstre med regulære udtryk (vi vil diskutere mønstre med regulære udtryk i detaljer, når vi kommer videre i denne tutorial).

Derefter bruger vi match string til at indtaste den faktor, som vi har erklæret som det angivne objekt, med inputstrengen, og hvis den passer, returneres den til at returnere false.

Den næste metode, vi har brugt, er IsMethod(string input, int index). Denne metode accepterer to parametre, og her angiver vi inputstrengen og det indeks, hvorfra matchet skal starte. For eksempel, her ønskede vi at starte matchningen fra starten af inputstrengen.

Derefter demonstrerede vi brugen af IsMatch(string input, string pattern). Her gav vi inputstrengen og ønskede at finde ud af, om mønsterteksten er til stede i input eller ej. Hvis den er til stede, returnerer den sandt (som i vores tilfælde), ellers returnerer den falsk.

En anden metode, som vi har diskuteret, er replaced. Denne metode er meget nyttig i programmer, hvor du ønsker at foretage ændringer i inputdataene eller ændre formatet af de eksisterende data.

Her angiver vi to parametre, den første er inputstrengen, og den anden er den streng, der kan bruges til at erstatte den tidligere streng. Denne metode bruger også det mønster, der er defineret i regex-objektet, som vi definerede tidligere.

En anden vigtig metode, som vi har brugt, er split. Denne metode bruges til at opdele den givne streng ud fra nogle tilbagevendende mønstre. Her har vi givet en streng "Hello_World_Today".

Lad os sige, at vi ønsker at fjerne understregningen fra den givne streng og få understrenge. Til dette formål angiver vi inputparameteren og angiver derefter det mønster, som vi skal bruge som opdelingspunkt. Metoden returnerer et array, og vi kan bruge en simpel løkke som foreach til at hente alle strengene.

Syntaks for regulære udtryk

Der findes flere forskellige syntakser såsom specialtegn, kvantifikatorer, tegnklasser osv., som kan bruges til at matche et bestemt mønster fra et givet input.

I denne del af tutorialen vil vi dykke dybt ned i den syntaks, som regex tilbyder, og vi vil forsøge at løse nogle virkelige scenarier ved hjælp af dem. Før vi fortsætter, skal du sikre dig, at du har fået den grundlæggende idé om regex og de forskellige metoder, der er tilgængelige i regex-klassen.

Særlige tegn

Specialtegn i en regex bruges til at tildele et mønster flere forskellige betydninger. Vi vil nu se på nogle af de mest anvendte specialtegn og deres betydning i Regex.3

Særlige tegn	Betydning
^	Dette er en af de mest anvendte syntakser. Den angiver starten, ordet eller mønsteret efter dette begynder at matche fra starten af den indtastede tekst.
$	Dette tegn bruges til at matche ord fra slutningen af strengen. Ord/mønstre, der er angivet før dette symbol, vil matche med de ord, der findes i slutningen af strengen.
. (punkt)	Punkt bruges til at matche et enkelt tegn i den angivne streng, der forekommer én gang.
\n	Dette bruges til en ny linje.
\d og \D	Lille "d" bruges til at matche et ciffertegn, og stort "D" bruges til at matche ikke-cifrede tegn.
\s og \S	Der bruges små bogstaver "s" til at matche hvide mellemrum og store bogstaver "S" til at matche ikke-hvide mellemrum.
\w og \W	Lille bogstav "w" bruges til at matche alfanumeriske tegn/underscore-tegn, og stort bogstav "W" bruges til at matche tegn, der ikke er ord.

Syntaks for kvantifikatorer

Syntaks for kvantifikatorer bruges til at tælle eller kvantificere de matchende kriterier. For eksempel, hvis du vil kontrollere, om en bestemt streng indeholder et alfabet en eller flere gange. Lad os se på nogle af de almindeligt anvendte kvantifikatorer i regulære udtryk.

Syntaks for kvantifikatorer	Betydning
*	Dette symbol bruges til at matche det foregående tegn.
+	Dette symbol bruges til at matche et eller flere tegn i en række.
{n}	Det numeriske ciffer inden for de parenteser bruges til at matche nummeret på det foregående tegn, der er defineret ved numerisk inden for parenteser.
{n,}	Tallet inden for parenteser og dette symbol bruges til at sikre, at det passer til mindst n (dvs. talværdien inden for parenteser).
{n, m}	Dette symbol bruges til at matche fra det foregående tegn fra n antal gange til m antal gange.
?	Dette symbol gør de foregående tegn til valgfrie.

Karakterklasse

Karakterklassen er også kendt som tegnsæt, og den bruges til at fortælle regex-motoren, at den skal søge efter et enkelt match ud af flere tegn. En karakterklasse matcher kun ét tegn, og rækkefølgen af de tegn, der er indeholdt i tegnsættet, er ligegyldig.

Karakterklasse	Betydning
[ rækkevidde ]	Symbolet med den firkantede parentes bruges til at matche en række tegn. Vi kan f.eks. bruge det til at definere et tegn i området fra alfabetet "a" til "z" ved at omslutte området inden for parentesen som [a-z] Eller vi kan også matche med numeriske "1" til "9" ved at angive [1-9]
[^ rækkevidde]	Dette angiver en negatekarakterklasse. Den bruges til at matche alt, der ikke er i det område, der er angivet inden for parentesen.
\	Dette bruges til at matche specialtegn, der kan have deres egne regex-symboler. Skråstregen bruges til at matche specialtegn i deres bogstavelige form.

Gruppering

Runde parenteser eller parenteser kan bruges til at gruppere en del af det regulære udtryk sammen. Dette giver brugeren mulighed for enten at tilføje en kvantifikator med udtrykket.

Gruppering	Betydning
( gruppe udtryk )	De runde parenteser bruges til at gruppere et udtryk.

Eksempler på regelmæssige udtryk i C#

I det foregående afsnit lærte vi om symbolerne for regulære udtryk, og i dette afsnit vil vi se nærmere på brugen af forskellige symboler i regulære udtryk og kombinationen af dem til at matche forskellige udtryk.

I denne vejledning vil vi diskutere nogle af de mest udbredte scenarier fra det virkelige liv, som du kan møde som udvikler, når du arbejder på et program eller i et simpelt program til at få brugerinput.

Eksempel på regulære udtryk med scenarier fra det virkelige liv

Lad os lære mere om regulære udtryk ved hjælp af nogle eksempler i realtid.

Scenario 1: Validér, om indtastningsstrengen består af 6 cifre, der ikke tager hensyn til store og små bogstaver.

Det mest almindelige scenarie for regulære udtryk er at finde og matche et givet ord. For eksempel, Lad os sige, at jeg vil have en tilfældig alfabetisk streng fra brugeren, og at input skal være præcis 6 cifre langt.

For at validere dette kan vi bruge et simpelt regulært udtryk. Lad os skrive et program for at forstå skrivning og brug af regulære udtryk bedre.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$$"; Regex reg = new Regex(patternText); //Når mønsteret passer Console.WriteLine(reg.IsMatch("Helios"))); //Når mønsteret ikke passer Console.WriteLine(reg.IsMatch("Helo")); }

Udgang

True

Falsk

Forklaring

I dette eksempel forsøger vi at validere en indtastningsstreng for at kontrollere, om den indeholder sekscifrede alfabetiske tegn. Tegnene kan både være med store og små bogstaver, så det skal vi også tage højde for.

Så her definerede vi et regulært udtryksmønster i variablen "patternText" og sendte det derefter ind i regex-objektet. De næste kodelinjer er ret enkle, vi brugte IsMatch-metoden til at sammenligne det regulære udtryk og inputstrengen.

Lad os nu se på det regulære udtryk, som vi har udarbejdet. Udtrykket (^[a-zA-Z]{6}$) består af 4 forskellige dele: "^", "[a-zA-Z]", "{6}" og "$". Den anden del angiver de matchende tegn, som bruges til at matche udtrykket, "a-z" for små bogstaver og "A-Z" for store bogstaver.

Den første del af tegnet "^" sikrer, at strengen starter med et mønster, der er defineret i anden del, dvs. små og store bogstaver.

De parenteser i tredje del bestemmer antallet af tegn i strengen, der kan identificeres ved hjælp af det definerede mønster, dvs. 6 i dette tilfælde, og symbolet "$" sikrer, at det slutter med det mønster, der er defineret i anden del.

^[a-zA-Z]{6}$$

Scenario 2: Brug regulære udtryk til at validere, at et ord, der starter med "Super" og har et mellemrum efter det, dvs. at validere, om "Super" er til stede i starten af en sætning.

Lad os antage, at vi læser noget brugerinput og skal sikre os, at brugeren altid starter sin sætning med et bestemt ord, tal eller alfabet. Dette kan opnås ret nemt ved hjælp af et simpelt regulært udtryk.

Lad os se på et eksempelprogram og derefter diskutere i detaljer, hvordan man skriver dette udtryk.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); //Når mønsteret passer Console.WriteLine(reg.IsMatch("Superman")); //Når mønsteret ikke passer Console.WriteLine(reg.IsMatch("Superhero")); }

Udgang

True

Falsk

Forklaring

I dette eksempel har vi også brugt en lignende kodeopsætning som i det første eksempel. Det regulære udtryksmønster i dette scenario kræver, at der matches med en kombination af ord eller sætninger, der begynder med "Super".

^Super

Så da vi ønsker at matche fra starten af ordserien, starter vi med at sætte symbolet "^" og angiver derefter det mønster, som vi ønsker at matche, i dette tilfælde "Super". Det mønster, vi har oprettet "^Super", kan matche alle værdier af super, selv superman eller supernatural, men vi ønsker ikke kun ordet "Super".

Det betyder, at der skal være en hvid plads efter ordet for at markere slutningen af ordet og starten af et andet ord. For at gøre dette vil vi tilføje symbolet "\s" til mønsteret og dermed gøre vores endelige mønster til følgende

^Super\s

Scenario 3: Brug regulære udtryk til at finde gyldige filnavne med en udvidelse af billedfiltypen.

Et andet vigtigt realtidsscenarie, som udviklere ofte står over for, er validering af filtyper. Lad os sige, at vi har en upload-knap i brugergrænsefladen, som kun kan acceptere filtypenavne af billedfiltypen.

Vi skal validere brugerens upload-fil og informere ham, hvis han har uploadet et forkert filformat. Dette kan nemt opnås ved at bruge Regular expression.

Nedenfor er et simpelt program til at kontrollere dette.

 public static void Main(string[] args) gif)$"; Regex regex reg = new Regex(patternText); //Når mønsteret passer Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); //Når mønsteret ikke passer Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj"))); Console.WriteLine(reg.IsMatch("ask.jpegj"));

Udgang

True

Falsk

Forklaring

Her skal vi matche et filnavn. Et gyldigt filnavn består af tre dele ( filens navn + . + filtypenavn ). Vi skal oprette et regulært udtryk til at matche alle tre dele. Lad os starte med at matche den første del, dvs. filens navn. Et filnavn kan indeholde alfanumeriske tegn og specialtegn.

Som tidligere nævnt er symbolet til at angive dette "\w". Filnavnet kan også bestå af et eller flere tegn, så vi bruger symbolet "+". Kombiner dem, og vi får symbolet for den første del.

 (\w+)

Parentesen adskilte dette i dele. Den næste del er punktsymbolet. Da punktsymbolet har sin betydning i en regex, bruger vi en skråstreg foran det for at give det en bogstavelig betydning. Kombiner begge dele, og vi har dækket de to første dele af regex'en.

 (\w+)\.

I den tredje og sidste del kan vi nu direkte definere de nødvendige filtypenavne adskilt af "

 (\w+)\.(jpg

Hvis vi nu bruger dette i programmet, kan vi se, at det passer til det korrekte format og returnerer sandt, men med ugyldige formater returnerer det falsk.

Scenario 4: Brug regulære udtryk til at validere et adresseformat for et websted

Lad os antage, at vi har en webformular, der accepterer en webadresse eller domæneadresse. Vi ønsker, at brugeren skal indtaste den korrekte webadresse/domæneadresse, mens han/hun udfylder formularen. For at fastslå, om brugeren har indtastet en korrekt webadresse, kan et regulært udtryk være meget nyttigt.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com

Udgang

True

Falsk

Forklaring

Her ønsker vi at matche et gyldigt domænenavn ved hjælp af et regulært udtryk. Et gyldigt domænenavn starter med forkortelsen "www" efterfulgt af en prik (.), derefter navnet på webstedet, derefter en prik (.) og til sidst en domæneendelse.

Så i lighed med det foregående scenario vil vi forsøge at matche det del for del. Lad os først starte med at matche "www." Del. Så vi starter med startsymbolet, derefter som "www." Det er noget, der er fast, så vi bruger startsymbolet efterfulgt af de nøjagtige ord til at matche.

 "^www."

Derefter begynder vi at arbejde på den anden del. Den anden del af webadressen kan være et alfanumerisk navn. Så her vil vi bruge firkantede parenteser, der er til stede i karakterklassen, til at definere det område, der skal matches. Når vi har tilføjet den anden del med den anden del, får vi.

 “^www.[a-zA-Z0-9]{3,20}”

Her har vi også tilføjet parenteser for at definere den minimale og maksimale tegnlængde for webstedsnavnet. Vi har angivet et minimum på 3 og et maksimum på 20. Du kan angive den minimale eller maksimale længde, som du ønsker.

Nu, hvor vi har dækket den første og anden del af webadressen, er der kun tilbage med den sidste del, dvs. domæneudvidelsen. Det ligner meget det, vi gjorde i det sidste scenarie, vi vil direkte matche med domæneudvidelserne ved at bruge OR og ved at omslutte hver gyldig domæneudvidelse inden for den cirkulære parentes.

Hvis vi lægger dem alle sammen sammen, har vi et komplet regulært udtryk, der passer til enhver gyldig webadresse.

 www.[a-zA-Z0-9]{3,20}.(com

Scenario 5: Brug regulært udtryk til at validere et e-mail-id-format

Lad os antage, at vi har en tilmeldingsformular på vores webside, som beder brugerne om at indtaste deres e-mailadresse. Af indlysende årsager ønsker vi ikke, at vores formular skal fortsætte med ugyldige e-mailadresser. For at validere, om den e-mailadresse, som brugeren har indtastet, er korrekt eller ej, kan vi bruge et regulært udtryk.

Nedenstående er et simpelt program til validering af en e-mail-adresse.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Udgang

True

Falsk

Forklaring

En gyldig e-mail-adresse indeholder alfabeter, tal og nogle specialtegn som punkt (.), streg (-) og understregninger (_) efterfulgt af symbolet "@", som derefter efterfølges af domænenavnet og domæneudvidelsen.

Vi kan således opdele e-mail-adressen i fire dele, dvs. e-mail-identifikator, "@"-symbolet, domænenavnet og den sidste del er domæneudvidelsen.

Lad os starte med at skrive et regulært udtryk for den første del. Det kan være alfanumerisk med nogle specialtegn. Antag, at vi har et udtryk med en størrelse på mellem 5 og 25 tegn. På samme måde som vi skrev det tidligere (i e-mailscenariet), kan vi finde frem til følgende udtryk.

 ^[a-zA-Z0-9\._-]{5,25}

Nu til den anden del. Det er forholdsvis nemt, da vi kun skal matche ét symbol, nemlig "@". Når vi tilføjer det til ovenstående udtryk, får vi.

 ^[a-zA-Z0-9\._-]{5,25}.@

Hvis du ønsker det, kan du også inkludere numeriske tegn eller alfabetiske tegn med store bogstaver, men i dette scenarie vil vi vælge de små bogstaver i alfabetet.

Hvis vi tilføjer udtrykket for alfabeter med små bogstaver med en længde på mellem 2 og 12 tegn, får vi følgende udtryk.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}

Nu er vi kun tilbage med udtrykket for domæneudvidelse, ligesom i det fjerde scenario vil vi håndtere nogle specifikke domæneudvidelser. Hvis du ønsker det, kan du tilføje flere af dem ved at omslutte dem i en cirkulær parentes og adskille dem med et "

Ved at konsolidere dette udtryk med det foregående udtryk får vi vores endelige udtryksværdi for e-mailvalidering.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Konklusion

I denne tutorial lærte vi, hvad regulære udtryk er, og hvilken syntaks/symboler der bruges til at angive og konstruere et regulært udtryk. Regulære udtryk giver brugeren mulighed for at matche en streng med et givet mønster.

Dette er meget nyttigt i situationer, der kræver hurtig validering af input, f.eks. når en bruger indtaster sin e-mailadresse eller sit telefonnummer, kan regex bruges til hurtigt at validere formatet og informere brugeren om problemet, hvis brugeren har indtastet et forkert format.

Vi lærte også at håndtere forskellige scenarier, der kan bruges til en række forskellige applikationer. Vi så på trin for trin-processen for at skrive udtryk til at matche ord, alfabeter, websideadresser, e-mail-id'er og endda filtyper og filtypenavne.

Disse scenarier er meget nyttige til realtidsvalidering af brugerinput uden at skrive mange linjer kode og hjælper dermed med at spare tid og reducere kompleksiteten. Disse eksempler er blevet brugt til at vejlede brugeren til at oprette sit eget sæt regulære udtryk og dermed hjælpe ham med at håndtere flere andre forskellige scenarier.

Regex kan være enkel, f.eks. ved at bruge alfabetet eller tal til at matche en given serie af tegn, eller kompleks ved at bruge en kombination af specialtegn, kvantifikatorer, tegnklasser osv. til at validere komplekse formater eller til at lede efter et bestemt mønster i tegnserien.

Kort sagt er et regulært udtryk et ganske effektivt værktøj for en programmør og hjælper med at reducere mængden af kode, der kræves for at udføre en datamatching eller en valideringsopgave.