C# Regex Tutorial: Vad är ett reguljärt uttryck i C#?

Regex-klass i C#
Slutsats

I den här C# Regex-handledningen förklaras vad ett reguljärt uttryck är i C#, dess syntax, Regex-klassens metoder och hur man använder dessa metoder med hjälp av exempel:

Det reguljära uttrycket i C# används för att matcha ett visst teckenmönster. Reguljära uttryck används när en användare behöver hitta ett upprepat mönster, göra en datavalidering eller till och med kontrollera dataformatering.

En RegEx används för att ta reda på om en sträng innehåller eller matchar ett givet teckenmönster. En RegEx är i första hand en teckensekvens som anger ett mönster.

Ett mönster kan vara allt från siffror, tecken eller en kombination av alla. Regex används ofta för validering, analysering eller matchning av strängar, till exempel, hittar om en sträng matchar valutaformat, telefonnummer eller datumformat.

Regex-klass i C#

Regex-klassen används i C# för att utföra regex-operationer. Den innehåller flera olika metoder som kan användas för att utföra olika operationer med anknytning till regex.

Den kan användas för att analysera stor text för att hitta en viss teckensekvens med hjälp av metoder som kan användas för att utföra en matchning, ersätta eller dela upp teckensekvensen.

Klassen regex finns i namnområdet System.Text.RegularExpression. Klassen accepterar en sträng i form av en teckensekvens som parameter.

Regex-metoder i C#

IsMatch

Den enklaste och mest användbara metoden i Regex-klassen är IsMatch-metoden. Metoden har olika överladdningar för att matcha tecken baserat på olika parametrar.

Den enklaste är

Ersätt(String text, String replacementText)

Metoden replace tar emot två parametrar och returnerar ett strängvärde. Den första parametern är den teckensekvens eller regex som du vill använda för matchning och den andra är ersättningen av regex.

Metoden fungerar genom att hitta en matchning av den givna texten och ersätter den sedan med den ersättningstext som användaren har angett. Metodens signatur är public string Replace(string text, string replacementText)

Public string[] Split(string text)

Metoden split från regex-klassen tar emot stränginmatning som parameter och returnerar en matris med understrängar. Parametern som överförs till metoden är strängen som ska delas.

Metoden hittar det matchande inmatningsmönstret i strängen och när den identifierar ett matchande mönster delas strängen på den platsen i mindre delsträngar där varje matchande mönster är brytpunkten. Metoden returnerar sedan en matris som innehåller alla delsträngar.

Användning av Regex C#-metoder

Låt oss ta en titt på användningen av dessa metoder genom att skriva ett enkelt program.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World"))); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText))); //Replace(string input, stringreplacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } }

Resultatet av ovanstående program

True

Ersätt världen

Hej

Världen

Idag

Förklaringen till ovanstående kod:

I början av programmet har vi skapat ett objekt och för det mönster som vi kommer att använda för kodmatchning i den efterföljande stränginmatningen har vi använt textformatering för att hålla det enkelt i början, men om du känner dig bekväm kan du börja använda mönster för reguljära uttryck (vi kommer att diskutera mönster för reguljära uttryck i detalj när vi går vidare i den här handledningen).

Sedan använder vi match string för att mata in faktorn som vi har deklarerat som det angivna objektet med inmatningssträngen och om den matchar kommer den att återge falska värden.

Nästa metod som vi använde är IsMethod(string input, int index). Metoden accepterar två parametrar, och här anger vi inmatningssträngen och indexet från vilket matchningen ska börja. Till exempel, Här vill vi starta matchningen från början av inmatningssträngen.

Sedan demonstrerade vi användningen av IsMatch(string input, string pattern). Här gav vi inmatningssträngen och ville sedan ta reda på om mönstret finns i inmatningen eller ej. Om det finns kommer det att återge true (som i vårt fall) annars kommer det att återge false.

En annan metod som vi diskuterade är replaced. Den här metoden är ganska användbar i program där du vill göra ändringar i indata eller ändra formatet på befintliga data.

Här anger vi två parametrar, den första är inmatningssträngen och den andra är den sträng som kan användas för att ersätta den tidigare strängen. Den här metoden använder också mönstret som definierats i regex-objektet som vi definierade tidigare.

En annan viktig metod som vi använde är split. Den här metoden används för att dela upp den givna strängen utifrån vissa återkommande mönster. Här har vi angett strängen "Hello_World_Today".

Låt oss säga att vi vill ta bort understrykningen från den givna strängen och få fram understrängarna. För detta anger vi ingångsparametern och ger sedan det mönster som vi behöver använda som delningspunkt. Metoden returnerar en array och vi kan använda en enkel slinga som foreach för att hämta alla strängar.

Syntax för reguljära uttryck

Det finns flera olika syntaxer, t.ex. specialtecken, kvantifierare, teckenklasser osv. som kan användas för att matcha ett visst mönster från en given inmatning.

I den här delen av handledningen kommer vi att dyka djupt ner i syntaxen som erbjuds av regex och försöka lösa några verkliga scenarier med hjälp av dem. Innan vi fortsätter bör du se till att du har fått den grundläggande idén om regex och de olika metoderna som finns tillgängliga inom regex-klassen.

Särskilda tecken

Specialtecken i en regex används för att tilldela ett mönster flera olika betydelser. Vi ska nu titta på några av de vanligaste specialtecknen och deras betydelse i Regex.3

Specialtecken	Betydelse
^	Detta är en av de mest använda syntaxerna. Den anger början, ordet eller mönstret efter detta börjar matcha från början av den inmatade texten.
$	Detta tecken används för att matcha ord från slutet av strängen. Ord/mönster som anges före denna symbol matchar de ord som finns i slutet av strängen.
. (punkt)	Punkt används för att matcha ett enskilt tecken i den givna strängen som förekommer en gång.
\n	Detta används för en ny rad.
\d och \D	Liten bokstav "d" används för att matcha ett siffertecken och stor bokstav "D" används för att matcha icke-siffriga tecken.
\s och \S	Liten bokstav "s" används för att matcha vita mellanslag och stor bokstav "S" används för att matcha icke-vita mellanslag.
\w och \W	Liten bokstav "w" används för att matcha alfanumeriska tecken/underteckens tecken och stor bokstav "W" används för att matcha tecken som inte är ord.

Syntax för kvantifierare

Syntaxen för kvantifiering används för att räkna eller kvantifiera matchningskriterierna. Till exempel, om du vill kontrollera om en viss sträng innehåller ett alfabet en eller flera gånger. Låt oss ta en titt på några av de vanligaste kvantifieringarna i reguljära uttryck.

Syntax för kvantifierare	Betydelse
*	Denna symbol används för att matcha det föregående tecknet.
+	Den här symbolen används för att matcha ett eller flera tecken i en rad.
{n}	Den numeriska siffran inom parenteserna används för att matcha numret på det föregående tecknet som definieras av numeric inom parenteserna.
{n,}	Siffran inom parenteser och denna symbol används för att se till att den matchar minst n (dvs. siffervärdet inom parenteser).
{n, m}	Den här symbolen används för att matcha föregående tecken från n till m antal gånger.
?	Denna symbol gör att föregående tecken kan matchas som valfria.

Karaktärsklass

Karaktärsklassen är också känd som teckenuppsättningar och används för att tala om för regexmotorn att den ska leta efter en enda matchning bland flera tecken. En teckenklass matchar endast ett tecken och ordningen på de tecken som ingår i teckenuppsättningen spelar ingen roll.

Karaktärsklass	Betydelse
[ intervall ]	Den fyrkantiga hakparentesen används för att matcha ett teckenintervall. Vi kan till exempel använda den för att definiera ett tecken i intervallet från alfabetet "a" till "z" genom att omsluta intervallet inom hakparentesen på följande sätt: [a-z] Vi kan också matcha med siffrorna "1" till "9" genom att ange [1-9].
[^ intervall]	Detta betecknar negate-teckenklassen. Den används för att matcha vad som helst som inte ingår i det område som anges inom parentesen.
\	Detta används för att matcha specialtecken som kan ha sina egna regex-symboler. Snedstrecket används för att matcha specialtecken i bokstavlig form.

Gruppering

Runda parenteser eller parenteser kan användas för att gruppera en del av det reguljära uttrycket. Detta gör det möjligt för användaren att antingen lägga till en kvantifierare i uttrycket.

Gruppering	Betydelse
( grupputtryck )	De runda parenteserna används för att gruppera ett uttryck.

Exempel på reguljära uttryck i C#

I det föregående avsnittet lärde vi oss om symbolerna för reguljära uttryck, i det här avsnittet kommer vi att titta närmare på användningen av olika symboler i reguljära uttryck och hur de kan användas för att matcha olika uttryck.

I den här handledningen kommer vi att diskutera några av de vanligaste scenarierna i verkligheten som du kan möta som utvecklare när du arbetar med ett program eller ett enkelt program för att få in användarinmatning.

Exempel på reguljära uttryck med verkliga scenarier

Låt oss lära oss mer om reguljära uttryck med hjälp av några exempel i realtid.

Scenario 1: Validera om inmatningssträngen består av sex siffror som inte tar hänsyn till stor- och småbokstäver i alfabetet.

Ett vanligt scenario för reguljära uttryck är att hitta och matcha ett givet ord. Till exempel, Låt oss säga att jag vill ha en slumpmässig alfabetisk sträng från användaren och att inmatningen ska vara exakt 6 siffror lång.

För att validera detta kan vi använda ett enkelt reguljärt uttryck. Låt oss skriva ett program för att bättre förstå hur man skriver och använder reguljära uttryck.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); //När mönstret matchar Console.WriteLine(reg.IsMatch("Helios"))); //När mönstret inte matchar Console.WriteLine(reg.IsMatch("Helo")); }

Utgång

True

Falskt

Förklaring

I det här exemplet försöker vi validera en inmatningssträng för att kontrollera om den innehåller sexsiffriga alfabetiska tecken. Tecknen kan vara både små och stora bokstäver, så vi måste också ta hänsyn till det.

Så här definierade vi ett mönster för ett reguljärt uttryck i variabeln "patternText" och skickade sedan in det i regex-objektet. Nästa kodrad är ganska enkel, vi använde IsMatch-metoden för att jämföra det reguljära uttrycket och inmatningssträngen.

Låt oss nu titta på det reguljära uttrycket som vi har tagit fram. Uttrycket (^[a-zA-Z]{6}$) består av fyra olika delar: "^", "[a-zA-Z]", "{6}" och "$". Den andra delen anger de matchande tecknen som används för att matcha uttrycket, "a-z" för små bokstäver och "A-Z" för stora bokstäver.

Tecknet "^" i den första delen säkerställer att strängen börjar med ett mönster som definieras i den andra delen, dvs. alfabet med små och stora bokstäver.

De hängande parenteserna i den tredje delen bestämmer antalet tecken i strängen som kan identifieras med det definierade mönstret, dvs. 6 i det här fallet, och symbolen "$" ser till att den slutar med det mönster som definierades i den andra delen.

^[a-zA-Z]{6}$

Scenario 2: Använd reguljära uttryck för att validera att ett ord som börjar med "Super" och har ett mellanslag efter det, dvs. för att validera om "Super" finns i början av en mening.

Låt oss anta att vi läser användarinformation och måste se till att användaren alltid börjar sin mening med ett visst ord, nummer eller alfabet. Detta kan göras ganska enkelt med hjälp av ett enkelt reguljärt uttryck.

Vi tittar på ett exempelprogram och diskuterar sedan i detalj hur man skriver det här uttrycket.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); //När mönstret matchar Console.WriteLine(reg.IsMatch("Super man")); //När mönstret inte matchar Console.WriteLine(reg.IsMatch("Superhero")); }

Utgång

True

Falskt

Förklaring

Även i det här exemplet använde vi en liknande koduppsättning som i det första exemplet. Mönstret för det reguljära uttrycket i det här scenariot kräver att man matchar en kombination av ord eller meningar som börjar med "Super".

^Super

Eftersom vi vill matcha från början av ordserien börjar vi med symbolen "^" och anger sedan mönstret som vi vill matcha, i det här fallet "Super". Mönstret som vi skapade "^Super" kan matcha alla värden av super, även superman eller supernatural, men vi vill inte bara ha ordet "Super".

Detta innebär att det ska finnas ett vitt utrymme efter ordet för att markera slutet av ordet och början av ett nytt ord. För att göra detta lägger vi till symbolen "\s" i mönstret och därmed blir vårt slutliga mönster följande

^Super\s

Scenario 3: Använd reguljära uttryck för att hitta giltiga filnamn med en filändelse för en bildfil.

Ett annat viktigt realtidsscenario som utvecklare ofta ställs inför är valideringen av filtyper. Låt oss säga att vi har en uppladdningsknapp i användargränssnittet som endast kan acceptera filändelser av typen bildfil.

Vi måste validera användarens uppladdningsfil och informera honom om han har laddat upp fel filformat. Detta kan enkelt göras med hjälp av reguljära uttryck.

Nedan finns ett enkelt program för att kontrollera detta.

 public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); // När mönstret matchar Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); // När mönstret inte matchar Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj"));

Utgång

True

Falskt

Förklaring

Här måste vi matcha ett filnamn. Ett giltigt filnamn består av tre delar ( Filens namn + . + filändelse ). Vi måste skapa ett reguljärt uttryck för att matcha alla tre delarna. Vi börjar med att matcha den första delen, dvs. namnet på filen. Ett filnamn kan innehålla alfanumeriska tecken och specialtecken.

Som vi diskuterade tidigare är symbolen för att beteckna detta "\w". Filnamnet kan också bestå av ett eller flera tecken, så vi använder symbolen "+". Kombinera dem och vi får symbolen för den första delen.

 (\w+)

Bracket separerade detta i delar. Nästa del är punktsymbolen. Eftersom punktsymbolen har sin betydelse i en regex använder vi ett backslash före den för att ge den en bokstavlig betydelse. Kombinera båda och vi har täckt de två första delarna av regex.

 (\w+)\.

För den tredje och sista delen kan vi nu direkt definiera de nödvändiga filändelserna separerade med "

 (\w+)\.(jpg

Om vi använder detta i programmet kan vi se att det matchar rätt format och returnerar sant, men att det returnerar falskt när det gäller ogiltiga format.

Scenario 4: Använd reguljära uttryck för att validera ett adressformat för en webbplats

Låt oss anta att vi har ett webbformulär som accepterar en webbadress eller domänadress. Vi vill att användaren ska ange rätt webbadress/domänadress när han/hon fyller i formuläret. För att avgöra om användaren har angett en korrekt webbadress kan ett reguljärt uttryck vara mycket användbart.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com

Utgång

True

Falskt

Förklaring

Här vill vi matcha ett giltigt domännamn med hjälp av ett reguljärt uttryck. Ett giltigt domännamn börjar med förkortningen "www" följt av en punkt (.), därefter namnet på webbplatsen, därefter en punkt (.) och i slutet ett domäntillägg.

Så, i likhet med föregående scenario försöker vi matcha det del för del. Vi börjar med att matcha "www." Del. Vi börjar med startsymbolen och sedan "www." Det är något som är fast, så vi använder startsymbolen följt av de exakta orden för att matcha.

 "^www."

Sedan börjar vi arbeta med den andra delen. Den andra delen av webbadressen kan vara ett valfritt alfanumeriskt namn. Här använder vi alltså hakparenteser som finns i teckenklassen för att definiera det område som ska matchas. När vi har lagt till den andra delen med den andra delen får vi.

 “^www.[a-zA-Z0-9]{3,20}”

Här har vi också lagt till hängande parenteser för att definiera minsta och största teckenlängd för webbplatsens namn. Vi har angett minst 3 och högst 20. Du kan ange vilken minsta eller största längd du vill.

När vi nu har täckt den första och andra delen av webbadressen återstår bara den sista delen, dvs. domäntillägget. Det är ganska likt det vi gjorde i det förra scenariot, vi kommer att matcha domäntillägget direkt genom att använda OR och omsluta varje giltigt domäntillägg inom den cirkulära parentesen.

Om vi lägger ihop alla dessa har vi alltså ett komplett reguljärt uttryck för att matcha alla giltiga webbadresser.

 www.[a-zA-Z0-9]{3,20}.(com

Scenario 5: Använd reguljära uttryck för att validera ett e-post-ID-format

Låt oss anta att vi har ett inloggningsformulär på vår webbsida där vi ber användarna att ange sin e-postadress. Av uppenbara skäl vill vi inte att formuläret ska gå vidare med ogiltiga e-postadresser. För att validera om den e-postadress som användaren har angett är korrekt eller inte kan vi använda ett reguljärt uttryck.

Nedan finns ett enkelt program för att validera en e-postadress.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Utgång

True

Falskt

Förklaring

En giltig e-postadress innehåller alfabet, siffror och vissa specialtecken som punkt (.), streck (-) och understrykningar (_) följt av symbolen "@" som sedan följs av domännamnet och domäntillägget.

Vi kan alltså dela upp e-postadressen i fyra delar, dvs. e-postidentifieraren, "@"-symbolen, domännamnet och den sista delen är domäntillägget.

Låt oss börja med att skriva ett reguljärt uttryck för den första delen. Det kan vara alfanumeriskt med vissa specialtecken. Anta att vi har ett uttryck med en storlek på mellan 5 och 25 tecken. På samma sätt som vi skrev det tidigare (i e-postscenariot) kan vi få fram följande uttryck.

 ^[a-zA-Z0-9\._-]{5,25}

Nu övergår vi till den andra delen. Det är relativt enkelt eftersom vi bara behöver matcha en symbol, nämligen "@". Om vi lägger till den i uttrycket ovan får vi.

 ^[a-zA-Z0-9\._-]{5,25}.@

Om du vill kan du också inkludera numeriska tecken eller alfabetiska tecken med stor bokstav, men i det här scenariot kommer vi att använda oss av alfabetiska tecken med liten bokstav.

Om vi lägger till uttrycket för små bokstäver med en längd på mellan 2 och 12 tecken får vi följande uttryck.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}

Nu återstår bara uttrycket för domäntillägg, i likhet med det fjärde scenariot kommer vi att hantera några specifika domäntillägg. Om du vill kan du lägga till fler av dem genom att omsluta dem inom en cirkulär parentes och separera dem med ett "

Genom att konsolidera detta uttryck med det föregående uttrycket får vi vårt slutliga värde för e-postvalidering.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Slutsats

I den här handledningen lärde vi oss vad ett reguljärt uttryck är och vilken syntax/symboler som används för att beteckna och konstruera ett reguljärt uttryck. Med ett reguljärt uttryck kan användaren matcha en sträng med ett givet mönster.

Detta är till stor hjälp i situationer som kräver snabb validering av inmatningen, t.ex. när en användare anger sin e-postadress eller sitt telefonnummer, kan regex användas för att snabbt validera formatet och informera användaren om problemet om användaren har angett fel format.

Vi lärde oss också att hantera olika scenarier som kan användas i en mängd olika tillämpningar. Vi tittade på steg för steg-processen för att skriva uttryck för att matcha ord, alfabet, webbadresser, e-post-ID och till och med filtyper och filändelser.

Dessa scenarier är mycket användbara för validering av användarinmatningar i realtid utan att behöva skriva många rader kod, vilket bidrar till att spara tid och minska komplexiteten. Dessa exempel har använts för att vägleda användaren till att skapa sin egen uppsättning reguljära uttryck och därmed hjälpa dem att hantera flera andra olika scenarier.

Regex kan vara enkelt, som att använda alfabetet eller siffrorna för att matcha en given serie tecken, eller komplext genom att använda en kombination av specialtecken, kvantifierare, teckenklasser etc. för att validera komplexa format eller för att leta efter ett specifikt mönster i teckenserien.

Kort sagt är ett reguljärt uttryck ett kraftfullt verktyg för en programmerare och hjälper till att minska mängden kod som krävs för att utföra en datamatchning eller en valideringsuppgift.