Výukový kurz jazyka C# Regex: Co je regulární výraz jazyka C#?

Třída Regex v jazyce C#
Závěr

Tento výukový kurz jazyka C# Regex vysvětluje, co je regulární výraz v jazyce C#, jeho syntaxi, metody třídy Regex a jak tyto metody používat na příkladech:

Regulární výraz v jazyce C# slouží k porovnání určitého vzoru znaků. Regulární výrazy se používají vždy, když uživatel potřebuje najít nějaký opakující se vzor nebo provést validaci dat či dokonce kontrolu formátování dat.

RegEx slouží ke zjištění, zda řetězec obsahuje zadaný vzor znaků nebo zda se s ním shoduje. Regex je především posloupnost znaků, která označuje vzor.

Vzor může být cokoli od čísel, znaků nebo kombinace všech. Regex se široce používá pro validaci. Parsování nebo porovnávání řetězců, například, zjištění, zda řetězec odpovídá formátu měny, telefonního čísla nebo data.

Třída Regex v jazyce C#

Třída Regex se v jazyce C# používá k provádění operací s regexy. Obsahuje několik různých metod, které lze použít k provádění různých operací souvisejících s regexy.

Lze jej použít k analýze rozsáhlého textu za účelem nalezení určité posloupnosti znaků pomocí metod, které lze použít k provedení shody, nahrazení nebo k rozdělení posloupnosti znaků.

Třída regex se nachází uvnitř jmenného prostoru; System.Text.RegularExpression. Třída přijímá jako parametr řetězec v podobě posloupnosti znaků.

Metody regexu jazyka C#

IsMatch

Nejjednodušší a nejužitečnější metodou třídy Regex je metoda IsMatch. Tato metoda má různá přetížení pro provádění porovnávání znaků na základě různých parametrů.

Nejjednodušší je

Nahradit(String text, String replacementText)

Metoda replace přijímá dva parametry a vrací řetězcovou hodnotu. Prvním parametrem je posloupnost znaků nebo regex, který chcete použít pro porovnání, a druhým je nahrazení regexu.

Metoda pracuje tak, že najde shodu zadaného textu a nahradí jej náhradním textem zadaným uživatelem. Signatura metody je následující. public string Nahradit(string text, string replacementText)

Veřejné string[] Split(string text)

Metoda split ze třídy regex přijímá jako parametr vstupní řetězec a vrací pole obsahující podřetězce. Parametrem předávaným metodě je řetězec, který je třeba rozdělit.

Metoda vyhledá v řetězci odpovídající vstupní vzor a jakmile identifikuje nějaký odpovídající vzor, rozdělí řetězec v daném místě na menší podřetězce, přičemž každý odpovídající vzor je bodem zlomu. Metoda pak vrátí pole obsahující všechny podřetězce.

Použití metod Regex C#

Podívejme se na použití těchto metod pomocí jednoduchého programu.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World")); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(string input, stringreplacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } }

Výstup výše uvedeného programu

Pravda

Nahradit svět

Dobrý den,

Svět

Dnes

Vysvětlení výše uvedeného kódu:

Na začátku programu jsme vytvořili objekt a pro vzor, který budeme používat pro porovnávání kódu v následném zadávání řetězce, jsme použili formátování textu, aby to bylo na začátku jednoduché, ale pokud vám to vyhovuje, můžete začít používat vzory regulárních výrazů. (Vzor regulárních výrazů probereme podrobněji, až budeme v tomto kurzu pokračovat).

Poté pomocí řetězce match zadáme faktor, který jsme deklarovali jako zadaný objekt, se vstupním řetězcem, a pokud se shoduje, vrátí se false.

Další metodou, kterou jsme použili, je IsMethod(string input, int index). Tato metoda přijímá dva parametry a zde zadáváme vstupní řetězec a index, od kterého má začít shoda. Například, zde jsme chtěli začít porovnávání od začátku vstupního řetězce.

Pak jsme si ukázali použití IsMatch(string input, string pattern). Zde jsme zadali vstupní řetězec a pak jsme chtěli zjistit, zda je text vzoru přítomen ve vstupu nebo ne. Pokud je přítomen, pak se vrátí true (jako v našem případě), jinak se vrátí false.

Další metodou, o které jsme hovořili, je metoda replaced. Tato metoda je poměrně užitečná v programech, kde chcete provést změny vstupních dat nebo změnit formát stávajících dat.

Zde zadáváme dva parametry, první je vstupní řetězec a druhý je řetězec, kterým lze nahradit předchozí řetězec. Tato metoda také používá vzor definovaný v objektu regex, který jsme definovali dříve.

Další důležitou metodou, kterou jsme použili, je split. Tato metoda slouží k rozdělení zadaného řetězce na základě některých opakujících se vzorů. Zde jsme zadali řetězec "Hello_World_Today".

Řekněme, že chceme ze zadaného řetězce odstranit podtržítko a získat podřetězce. K tomu zadáme vstupní parametr a poté uvedeme vzor, který potřebujeme použít jako bod dělení. Metoda vrátí pole a my můžeme pomocí jednoduchého cyklu typu foreach získat všechny řetězce.

Syntaxe regulárního výrazu

Existuje několik různých syntaxí, jako jsou speciální znaky, kvantifikátory, třídy znaků atd., které lze použít k přiřazení určitého vzoru z daného vstupu.

V této části výukového kurzu se ponoříme do syntaxe, kterou nabízí regex, a pokusíme se pomocí ní vyřešit několik reálných scénářů. Než budeme pokračovat, ujistěte se, že jste získali základní představu o regexu a různých metodách, které jsou v rámci třídy regex k dispozici.

Speciální znaky

Speciální znaky v regexu se používají k přiřazení několika různých významů vzoru. Nyní se podíváme na některé široce používané speciální znaky a jejich význam v regexu.3

Speciální znaky	Význam
^	Jedná se o jednu z nejpoužívanějších syntaxí. Označuje začátek, slovo nebo vzor se po ní začne porovnávat od začátku vstupního textu.
$	Tento znak se používá pro přiřazování slov z konce řetězce. Slova/vzory označené před tímto symbolem se budou shodovat se slovy přítomnými na konci řetězce.
. (tečka)	Tečka se používá pro přiřazení jednoho znaku v daném řetězci, který se vyskytuje jednou.
\n	Používá se pro nový řádek.
\d a \D	Malé písmeno "d" se používá pro přiřazení znaku číslice a velké písmeno "D" se používá pro přiřazení znaků, které nejsou číslicemi.
\s a \S	Malá písmena "s" se používají pro porovnání bílých mezer a velká písmena "S" se používají pro porovnání jiných než bílých mezer.
\w a \W	Malá písmena "w" se používají pro přiřazení alfanumerických znaků a velkých písmen "W" pro přiřazení neslovních znaků.

Syntaxe kvantifikátoru

Syntaxe kvantifikátoru se používá k počítání nebo kvantifikaci kritérií shody. Například, pokud chcete zkontrolovat, zda určitý řetězec obsahuje abecedu jednou nebo vícekrát. Podívejme se na některé běžně používané kvantifikátory v regulárním výrazu.

Syntaxe kvantifikátoru	Význam
*	Tento symbol se používá pro shodu s předchozím znakem.
+	Tento symbol se používá pro přiřazení jednoho nebo více znaků v řadě.
{n}	Číslice uvnitř kulatých závorek se používá k přiřazení čísla předchozího znaku definovaného číslicí uvnitř kulatých závorek.
{n,}	Číslovka uvnitř kudrnatých závorek a tento symbol slouží k tomu, aby bylo zajištěno, že odpovídá alespoň n (tj. číselné hodnotě uvnitř závorek).
{n, m}	Tento symbol se používá pro porovnání s předchozím znakem od n-krát do m-krát.
?	Tento symbol způsobuje, že předcházející znaky jsou nepovinné.

Třída postavy

Třída znaků je také známá jako znaková sada a používá se k tomu, aby regexový engine hledal jedinou shodu z několika znaků. Třída znaků bude odpovídat pouze jednomu znaku a na pořadí znaků uzavřených uvnitř znakové sady nezáleží.

Třída postavy	Význam
[ rozsah ]	Symbol hranaté závorky se používá k přiřazení rozsahu znaků. Můžeme jej například použít k definování libovolného znaku v rozsahu od abecedy "a" do "z" tak, že rozsah uzavřeme do závorky, například [a-z]. Nebo můžeme také porovnávat s číselnými hodnotami "1" až "9" označením [1-9].
[^ rozsah]	Označuje třídu znaků negace. Používá se k přiřazení čehokoli, co není v rozsahu označeném uvnitř závorky.
\	Slouží k přiřazení speciálních znaků, které mohou mít vlastní regex symboly. Lomítko se používá k přiřazení speciálních znaků v jejich doslovné podobě.

Seskupení

Kulaté závorky nebo závorky lze použít k seskupení části regulárního výrazu. To uživateli umožňuje buď přidat k výrazu kvantifikátor.

Seskupení	Význam
( skupinový výraz )	Kulaté závorky se používají pro seskupení výrazu.
	Na stránkách

Příklady regulárních výrazů v jazyce C#

V předchozí části jsme se seznámili se symboly regulárních výrazů, v této části se budeme podrobně zabývat použitím různých symbolů v regulárních výrazech a jejich kombinacemi, které lze použít k porovnání různých výrazů.

V tomto tutoriálu probereme některé z nejčastěji se vyskytujících reálných scénářů, se kterými se můžete setkat jako vývojáři při práci na nějaké aplikaci nebo v jednoduchém programu pro získávání uživatelských vstupů.

Příklad regulárního výrazu s reálnými scénáři

Pojďme se o regulárních výrazech dozvědět více na několika příkladech v reálném čase.

Scénář 1: Ověřte, zda se vstupní řetězec skládá z 6 znaků abecedy bez rozlišování malých a velkých písmen.

Nejčastějším scénářem pro regulární výraz je nalezení a přiřazení daného slova. Například, řekněme, že chci od uživatele náhodný abecední řetězec, který by měl být dlouhý přesně 6 číslic.

K ověření můžeme použít jednoduchý regulární výraz. Napišme si program, abychom lépe pochopili zápis a použití regulárních výrazů.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); /Když vzor odpovídá Console.WriteLine(reg.IsMatch("Helios")); /Když vzor neodpovídá Console.WriteLine(reg.IsMatch("Helo")); }

Výstup

Pravda

False

Vysvětlení

V tomto příkladu se snažíme ověřit vstupní řetězec a zkontrolovat, zda obsahuje šestimístné abecední znaky. Znaky mohou mít malá i velká písmena, takže musíme zohlednit i tuto skutečnost.

Zde jsme tedy definovali vzor regulárního výrazu v proměnné "patternText" a poté jsme jej předali do objektu regex. Další řádky kódu jsou již poměrně jednoduché, použili jsme metodu IsMatch pro porovnání regulárního výrazu a vstupního řetězce.

Nyní se podívejme na regulární výraz, který jsme vymysleli. Výraz (^[a-zA-Z]{6}$) se skládá ze 4 různých částí: "^", "[a-zA-Z]", "{6}" a "$". Druhá část označuje odpovídající znaky, které se používají k porovnávání výrazu, "a-z" pro malá písmena a "A-Z" pro velká písmena.

Znak "^" v první části zajišťuje, že řetězec začíná vzorem definovaným v druhé části, tj. malými a velkými písmeny.

Kudrnaté závorky ve třetí části určují počet znaků v řetězci, které lze identifikovat podle definovaného vzoru, tj. v tomto případě 6, a symbol "$" zajišťuje, že řetězec končí vzorem definovaným ve druhé části.

^[a-zA-Z]{6}$

Scénář 2: Použijte regulární výraz k ověření, že slovo, které začíná slovem "Super" a má za ním bílou mezeru, tj. k ověření, zda je na začátku věty slovo "Super".

Předpokládejme, že čteme nějaký uživatelský vstup a potřebujeme zajistit, aby uživatel vždy začínal svou větu určitým slovem, číslem nebo abecedou. Toho lze dosáhnout poměrně snadno pomocí jednoduchého regulárního výrazu.

Podívejme se na ukázkový program a poté podrobně probereme, jak tento výraz zapsat.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); /Když vzor odpovídá Console.WriteLine(reg.IsMatch("Superman")); /Když vzor neodpovídá Console.WriteLine(reg.IsMatch("Superhero")); }

Výstup

Pravda

False

Vysvětlení

I v tomto příkladu jsme použili podobné nastavení kódu jako v prvním příkladu. Vzor regulárního výrazu v tomto scénáři vyžaduje shodu s kombinací slov nebo vět začínajících na "Super".

^Super

Protože tedy chceme porovnávat od začátku řady slov, začneme tím, že vložíme symbol "^", a pak uvedeme vzor, který chceme porovnávat, v tomto případě "Super". Nyní vytvořený vzor "^Super" může porovnávat všechny hodnoty slova super, dokonce i superman nebo supernatural, ale nechceme jen slovo "Super".

To znamená, že za slovem by měla být bílá mezera, která označuje konec slova a začátek dalšího slova. Za tímto účelem přidáme do vzoru symbol "\s", čímž vznikne náš konečný vzor ve tvaru

^Super\s

Scénář 3: Použití regulárního výrazu k vyhledání platných názvů souborů s příponou typu souboru obrázku.

Dalším důležitým scénářem v reálném čase, se kterým se vývojáři často setkávají, je ověřování typů souborů. Řekněme, že máme v uživatelském rozhraní tlačítko pro odesílání, které může přijímat pouze přípony typu obrázkových souborů.

Potřebujeme ověřit soubor nahraný uživatelem a informovat ho v případě, že nahrál nesprávný formát souboru. Toho lze snadno dosáhnout pomocí regulárního výrazu.

Níže je uveden jednoduchý program pro kontrolu této skutečnosti.

 public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); /Když vzor odpovídá Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); /Když vzor neodpovídá Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj"));

Výstup

Pravda

False

Vysvětlení

Zde potřebujeme porovnat název souboru. Platný název souboru se skládá ze tří částí ( název souboru + . + přípona souboru ). Musíme vytvořit regulární výraz, který bude odpovídat všem třem částem. Začneme odpovídáním první části, tj. názvu souboru. Název souboru může obsahovat alfanumerické a speciální znaky.

Jak již bylo řečeno dříve, symbol pro toto označení je "\w". Také název souboru může mít jeden nebo více znaků, proto použijeme symbol "+". Jejich kombinací získáme symbol pro první část.

 (\w+)

Závorka to rozdělila na části. Další částí je symbol tečky. Protože symbol tečky má v regexu svůj význam, použijeme před ním zpětné lomítko, abychom mu dali doslovný význam. Spojíme-li obě části, máme první dvě části regexu pokryté.

 (\w+)\.

Nyní můžeme ve třetí a poslední části přímo definovat požadované přípony souborů oddělené znakem "

 (\w+)\.(jpg

Pokud jej nyní použijeme v programu, uvidíme, že odpovídá správnému formátu a vrací true, ale v případě neplatných formátů vrací false.

Scénář 4: Použití regulárního výrazu k ověření formátu adresy webové stránky

Předpokládejme, že máme webový formulář, který přijímá webovou adresu nebo adresu domény. Chceme, aby uživatel při vyplňování formuláře zadal správnou webovou adresu/adresu domény. Pro zjištění, zda uživatel zadal správnou webovou adresu, může být docela užitečný regulární výraz.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com

Výstup

Pravda

False

Vysvětlení

Zde chceme porovnat platné doménové jméno pomocí regulárního výrazu. Platné doménové jméno začíná zkratkou "www", za kterou následuje tečka (.), pak název webové stránky, za ním tečka (.) a na konci přípona domény.

Podobně jako v předchozím scénáři se tedy pokusíme o shodu po částech. Začneme nejprve shodou s částí "www." Začneme tedy počátečním symbolem, pak jako "www." Je to něco, co je pevně dané, takže použijeme počáteční symbol a za ním přesná slova pro shodu.

 "^www."

Poté začneme pracovat na druhé části. Druhou částí webové adresy může být libovolný alfanumerický název. Zde tedy použijeme hranaté závorky přítomné ve třídě znaků k definování rozsahu, který je třeba porovnat. Po přidání druhé části s druhou částí nám vznikne.

 “^www.[a-zA-Z0-9]{3,20}”

Zde jsme také přidali kudrnaté závorky pro definici minimální a maximální délky znaku pro název webové stránky. Zadali jsme minimální délku 3 a maximální délku 20. Můžete zadat libovolnou minimální nebo maximální délku.

Poté, co jsme pokryli první a druhou část webové adresy, zbývá nám už jen poslední část, tj. přípona domény. Je to dost podobné tomu, co jsme udělali v minulém scénáři, budeme přímo porovnávat s příponami domény pomocí OR a každou platnou příponu domény uzavřeme do kulaté závorky.

Pokud je tedy všechny sečteme, získáme kompletní regulární výraz, který odpovídá jakékoli platné webové adrese.

 www.[a-zA-Z0-9]{3,20}.(com

Scénář 5: Použití regulárního výrazu k ověření formátu e-mailového ID

Předpokládejme, že na naší webové stránce máme přihlašovací formulář, který uživatele žádá o zadání e-mailové adresy. Z pochopitelných důvodů nebudeme chtít, aby náš formulář pokračoval dále s neplatnými e-mailovými adresami. Pro ověření, zda je e-mailová adresa zadaná uživatelem správná, nebo ne, můžeme použít regulární výraz.

Níže je uveden jednoduchý program pro ověření e-mailové adresy.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Výstup

Pravda

False

Vysvětlení

Platná e-mailová adresa obsahuje abecedy, číslice a některé speciální znaky, jako je tečka (.), pomlčka (-) a podtržítko (_), za nimiž následuje symbol "@" a za ním název domény a její přípona.

E-mailovou adresu tak můžeme rozdělit na čtyři části, tj. identifikátor e-mailu, symbol "@", název domény a poslední je přípona domény.

Začněme tím, že napíšeme regulární výraz pro první část. Může být alfanumerický s některými speciálními znaky. Předpokládejme, že máme velikost výrazu v rozmezí 5 až 25 znaků. Podobně jako jsme ho napsali dříve (ve scénáři e-mailu), můžeme přijít s následujícím výrazem.

 ^[a-zA-Z0-9\._-]{5,25}

Nyní přejdeme k druhé části. Je to poměrně snadné, protože musíme porovnat pouze jeden symbol, tj. "@". Jeho přidáním do výše uvedeného výrazu získáme.

 ^[a-zA-Z0-9\._-]{5,25}.@

Přejděte ke třetí části, tj. název domény bude vždy tvořen řadou malých abecedních znaků. Pokud chcete, můžete zahrnout také číselné nebo velké abecední znaky, ale pro tento scénář budeme používat malé abecedy.

Pokud přidáme výraz pro malé abecedy s délkou od 2 do 12 znaků, dostaneme následující výraz.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}

Nyní nám zbývá jen výraz pro doménové rozšíření, podobně jako ve čtvrtém scénáři budeme zpracovávat některá konkrétní doménová rozšíření. Pokud chcete, můžete jich přidat více, a to tak, že je uzavřete do kulaté závorky a oddělíte je znakem "

Spojením tohoto výrazu s předchozím výrazem získáme konečnou hodnotu výrazu pro ověření e-mailu.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com

Závěr

V tomto kurzu jsme se dozvěděli, co je to regulární výraz a jaká syntaxe/symboly se používají k označení a konstrukci regulárního výrazu. Regulární výraz umožňuje uživateli porovnat řetězec s daným vzorem.

To je docela užitečné v situacích, které vyžadují rychlou validaci vstupu, například když uživatel zadává svou e-mailovou adresu nebo telefonní číslo, regex lze použít k rychlé validaci formátu a informovat uživatele o problému, pokud uživatel zadal špatný formát.

Naučili jsme se také řešit různé scénáře, které lze použít pro různé aplikace. Podívali jsme se na postupný postup při psaní výrazů pro přiřazování slov, abeced, webových adres, e-mailových ID a dokonce i typů a přípon souborů.

Tyto scénáře jsou poměrně užitečné při ověřování uživatelských vstupů v reálném čase bez nutnosti psát mnoho řádků kódu, a tím pomáhají šetřit čas a snižovat složitost. Tyto příklady byly použity jako návod pro uživatele k vytvoření vlastní sady regulárních výrazů, a tím jim pomáhají při řešení několika dalších různých scénářů.

Regex může být jednoduchý, jako je použití abecedy nebo číslic pro porovnání s danou řadou znaků, nebo složitý, kdy se používá kombinace speciálních znaků, kvantifikátorů, tříd znaků atd. pro ověřování složitých formátů nebo pro hledání určitého vzoru v řadě znaků.

Stručně řečeno, regulární výraz je pro programátora poměrně mocným nástrojem, který pomáhá snížit množství kódu potřebného k provedení úlohy porovnávání dat nebo validace.