Овој туторијал за C# Regex објаснува што е правилен израз во C#, неговата синтакса, методите на класата Regex и како да се користат овие методи со помош на примери:
Регуларниот израз во C# се користи за совпаѓање на одредена шема на знаци. Редовните изрази се користат секогаш кога корисникот треба да најде некоја шема што се повторува или да направи валидација на податоци или дури и за проверка на форматирање на податоците.
RegEx се користи за да открие дали низата содржи или се совпаѓа со дадена шема на знаци. Регексот е првенствено низа на знаци што означува шема.
Шамата може да биде што било, почнувајќи од броеви, знаци или комбинација од сите. Regex е широко користен за валидација. Парсирање или појавување низи, на пример, наоѓање дали низата се совпаѓа со форматот на валутата, телефонскиот број или форматот на датум.
Регекс класа во C#
Регекс класата се користи во C# за извршување на операции за регекс. Содржи неколку различни методи кои можат да се користат за извршување на различни операции поврзани со регекс.
Може да се користи за анализа на голем текст за да се најде одредена секвенца знаци со користење методи кои можат да се користат за извршување на совпаѓање, за замени или може да се користи за поделба на низата знаци.
Класата regex е присутна во именскиот простор; System.Text.RegularExpression. Класата прифаќа низа во форма на низа знаци како параметар.
C# Regex Methods
тоа што го создадовме „^Super“ може да одговара со сите вредности на супер, дури и суперчовек или натприродно, но не го сакаме само зборот „Супер“.
Ова значи дека треба да има празно место после зборот до означете го крајот на зборот и почетокот на друг збор. За да го направиме тоа, ќе додадеме симбол „\s“ на шаблонот и со тоа ќе ја направиме нашата конечна шема како
^Super\s
Сценарио 3: Користете регуларен израз за да најдете валидна датотека имиња со екстензија за тип на датотека со слика.
Друго важно сценарио во реално време со кое често се соочуваат програмерите е валидацијата на типовите на датотеки. Да речеме дека имаме копче за поставување во интерфејсот, кое може да прифаќа само екстензии од типот на датотека со слики.
Треба да ја потврдиме датотеката за прикачување на корисникот и да го известиме во случај да поставил погрешен формат на датотека. Ова може лесно да се постигне со користење на регуларен израз.
Подолу е дадена едноставна програма за проверка на ова.
public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); //When pattern doesnt match Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj"));
Излез
Точно
Точно
Точно
Неточно
Неточно
Објаснување
Тука треба да поклопиме име на датотека. Валидно име на датотека се состои од три дела ( име на датотека + . + наставка на датотека ). Треба да создадеме регуларен израз кој ќе одговара на сите три дела. Да почнеме со совпаѓање на првиот дел, односно името на датотеката. Името на датотеката може да содржи алфанумерички и специјални знаци.
Како што беше дискутирано претходно, симболот за означување е „\w“. Исто така, името на датотеката може да биде од едно или повеќепроследено со точка (.) па името на веб-локацијата потоа точка (.) и на крајот екстензија на домен.
Значи, слично како и претходното сценарио, ќе се обидеме да го поклопиме дел по дел . Ајде прво да започнеме со совпаѓање на „www“. Дел. Значи, започнуваме со почетниот симбол, потоа како „www“. Тоа е нешто што е поправено, па го користиме почетниот симбол проследен со точните зборови за да се совпадне.
“^www.”
Потоа ќе почнеме да работиме на вториот дел. Вториот дел од веб-адресата може да биде кое било алфанумеричко име. Значи, овде ќе користиме квадратни загради присутни во класата на знаци за да го дефинираме опсегот што треба да се совпадне. По додавањето на вториот дел со вториот дел ќе ни даде.
“^www.[a-zA-Z0-9]{3,20}”
Овде додадовме и кадрави загради за да ја дефинираме минималната и максималната должина на знаци за името на веб-локацијата. Дадовме минимум 3, а максимум 20. Можете да дадете која било минимална или максимална должина што ја сакате.
Сега, откако ги опфативме првиот и вториот дел од веб-адресата, ни останува само последниот дел, односно екстензија на домен. Сосема е слично на она што го направивме во последното сценарио, директно ќе се совпаднеме со екстензиите на доменот со користење ИЛИ и приложување на секоја валидна екстензија на доменот во кружната заграда.
Така, ако ги собереме сите овие заедно, ќе имаме комплетен регуларен израз за да одговара на која било валидна веб-адреса.
www.[a-zA-Z0-9]{3,20}.(com|in|org|co\.in|net|dev)$
Сценарио 5: Користете регуларен израз за да потврдитеформат на идентификација на е-пошта
Да претпоставиме дека имаме формулар за пријавување на нашата веб-страница која бара од корисниците да ја внесат својата е-адреса. Од очигледни причини, нема да сакаме нашата форма да продолжи понатаму со неважечки адреси на е-пошта. За да потврдиме дали адресата на е-пошта внесена од корисникот е точна или не, можеме да користиме регуларен израз.
Подолу е дадена едноставна програма за потврдување адреса на е-пошта.
public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com|org|co\.in|net)"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("[email protected]")); Console.WriteLine(reg.IsMatch("[email protected]")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("[email protected]")); }
Излез
Точно
Точно
Неточно
Објаснување
А валидна адреса за е-пошта содржи азбуки, цифри и некои специјални знаци како точка (.), цртичка (-) и долни црти (_) проследени со симболот „@“, кој потоа е проследен со името на доменот и екстензијата на доменот.
Така, можеме да ја поделиме адресата на е-пошта на четири дела, т.е. идентификатор на е-пошта, симбол „@“, име на домен, а последниот е наставката на доменот.
Да започнеме со пишување регуларен израз за првиот дел. Може да биде алфа-нумерички со некои специјални знаци. Да претпоставиме дека имаме големина на израз кој се движи од 5 до 25 знаци. Слично на тоа како го напишавме порано (во сценариото за е-пошта), можеме да дојдеме до следниов израз.
^[a-zA-Z0-9\._-]{5,25}
Сега, преминуваме на вториот дел. Релативно е лесно затоа што треба да совпаднеме само еден симбол, односно „@“. Додавањето на горенаведениот израз ни дава.
^[a-zA-Z0-9\._-]{5,25}.@
Преместувањето во третиот дел, односно името на доменот секогаш ќе биде низа понискишто се совпаѓаат зборови, азбуки, адреси на веб-локации, идентификатори за е-пошта, па дури и типови на датотеки и екстензии.
Овие сценарија се доста корисни за валидација во реално време на корисничките влезови без пишување бројни линии код и на тој начин помагаат во заштеда на време и намалување на сложеноста. Овие примери се користени за да го водат корисникот да создаде сопствен сет на правилни изрази и на тој начин да му помогне во справувањето со неколку други различни сценарија.
Regex може да биде едноставен како користење азбука или бројки за да се совпадне со дадена серија на знаци или сложени со користење на комбинација од специјални знаци, квантификатори, класи на знаци, итн. за да се потврдат сложените формати или да се бара специфичен модел во серијата знаци.
Накратко, регуларниот израз е прилично моќна алатка за програмер и помага да се намали количината на код што е потребен за да се постигне при усогласување на податоци или задача за валидација.
IsMatchНаједноставниот и најкорисен метод во класата Regex е методот IsMatch. Овој метод има различни преоптоварувања за извршување на совпаѓање на знаци врз основа на различни параметри.
Наједноставниот е
Replace(String text, String replacementText)
Методот за замена прифаќа два параметри и враќа вредност на стрингот. Првиот параметар е низата знаци или регекс што сакате да ги користите за совпаѓање, а вториот е замена на регексот.
Методот работи со наоѓање совпаѓање на дадениот текст и потоа го заменува со текст за замена обезбеден од корисникот. Потписот на методот е јавна низа Замени (текст на низа, замена на низаТекст)
Јавна низа[] Сплит(текст на низа)
Метод на поделба од класата regex прифаќа внесување низа како параметар и враќа низа што содржи поднизи. Параметарот што се пренесува во методот е низата што треба да се подели.
Методот ја наоѓа соодветната влезна шема во низата и штом ќе идентификува која било совпаѓачка шема, ја дели низата на тоа место на помала подниза со секој соодветен модел е точката на прекршување. Методот потоа враќа низа што ги содржи сите поднизи.
Употреба на методи на Regex C#
Ајде да погледнеме во употребата на овие методи со пишување едноставна програма.
public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World")); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(string input, string replacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } }
Излезот од горенаведенотопрограма
Вистина
Вистина
Вистина
Замени го светот
Здраво
Свет
Денес
Објаснувањето за горниот код:
На почетокот на програмата, создадовме објект и за шемата што ќе ја користиме за совпаѓање на кодот во последователниот внес на низа, користевме форматирање на текст за да ги направиме работите едноставни на почетокот, но ако ви е удобно, можете да започнете да користите обрасци за редовни изрази. (Детално ќе разговараме за моделот на регуларен израз додека одиме напред во ова упатство)
Потоа, ќе користиме низа за совпаѓање за да го внесеме факторот што сме го декларирале како наведен објект со влезната низа и ако се совпаѓа тогаш ќе се врати да врати неточно.
Следниот метод што го користевме е IsMethod(влез на низа, int индекс). Овој метод прифаќа два параметри, а тука даваме влезна низа и индекс од каде треба да започне совпаѓањето. На пример, овде сакавме да го започнеме совпаѓањето од почетокот на влезната низа.
Потоа ја демонстриравме употребата на IsMatch (внес на низа, шема на низа). Овде ја дадовме влезната низа, а потоа сакавме да откриеме дали текстот на шемата е присутен во влезот или не. Ако е сегашна, тогаш ќе се врати точно (како во нашиот случај), во спротивно ќе се врати неточно.
Друг метод за кој разговаравме е заменет. Овој метод е доста корисен во програмите каде што сакате да направите промени во влезните податоциили сменете го форматот на постоечките податоци.
Овде даваме два параметри, првиот е влезната низа и вториот е низата што може да се користи за замена на претходната низа. Овој метод исто така ја користи шемата дефинирана во регекс објектот што го дефиниравме претходно.
Друг важен метод што го користевме е разделување. Овој метод се користи за поделба на дадената низа врз основа на некои повторливи обрасци. Овде, обезбедивме низа „Hello_World_Today“.
Да речеме дека сакаме да ја отстраниме долната црта од дадената низа и да ги добиеме поднизите. За ова, го одредуваме влезниот параметар и потоа ја даваме шемата што треба да ја користиме како точка на разделување. Методот враќа низа и можеме да користиме едноставна јамка како foreach за да ги вратиме сите низи.
Синтакса на регуларен израз
Постојат неколку различни синтакси како што се специјални знаци, квантификатори, класи на знаци, итн. што може да се користи за да се совпадне одредена шема од даден влез.
Во овој дел од упатството, ќе се нурнеме длабоко во синтаксата што ја нуди regex и ќе се обидеме да решиме некои реални сценарија користејќи ги. Пред да продолжиме, проверете дали сте ја стекнале основната идеја за regex и различните методи достапни во класата regex.
Специјални знаци
Специјалните знаци во regex се користат за доделување неколку различни значења до шема. Сега ќе погледнеменекои од широко користените специјални знаци и нивното значење во Regex.3
Специјални знаци | Значење |
---|---|
^ | Ова е една од најшироко користените синтакси. Го означува почетокот, зборот или шемата откако ова почнува да се совпаѓа од почетокот на внесениот текст. |
$ | Овој знак се користи за совпаѓање зборови од крајот на низата. Зборовите/шемите означени пред овој симбол ќе се совпаѓаат со зборовите присутни на крајот од низата. |
. (точка) | Точката се користи за совпаѓање на еден знак во дадената низа што се појавува еднаш. |
\n | Ова се користи за нов линија. |
\d и \D | Мала буква „d“ се користи за совпаѓање на цифрен знак, а големата буква „D“ се користи за совпаѓање нецифрена знаци. |
\s и \S | Малите букви се користат за совпаѓање на бели празни места, а големите букви „S“ се користат за совпаѓање со небел простор . |
\w и \W | Малите букви „w“ се користат за совпаѓање на алфанумерички/подвлечени знаци, а големите букви „W“ се користат за совпаѓање на не-зборот знаци. |
Синтакса на квантификатор
Синтаксата на квантификаторот се користи за броење или квантифицирање на критериумите за совпаѓање. На пример, ако сакате да проверите дали одредена низа содржи азбука еднаш или повеќе пати. Ајде да погледнеме некои од најчесто користените квантификатори во регуларното изразување.
КвантификаторСинтакса | Значење |
---|---|
* | Овој симбол се користи за да одговара на претходниот знак. |
+ | Овој симбол се користи за совпаѓање на еден или повеќе знаци по ред. |
{n} | Нумеричката цифра во кадравата загради се користи за да се совпадне со бројот на претходниот знак дефиниран со нумерички внатрешни загради. |
{n,} | Бројот во кадравите загради и овој симбол се користи за да бидете сигурни дека се совпаѓа со најмалку n (т.е. нумеричка вредност во заградите). |
{n, m} | Овој симбол се користи за совпаѓање од претходниот знак од n број пати до m број пати. |
? | Овој симбол прави претходните знаци да се совпаѓаат како опционални. |
Класа на знаци
Класата на знаци е позната и како множества на знаци и тоа се користи за да му каже на регекс моторот да бара единствено совпаѓање од неколку знаци. Класата на знаци ќе одговара само на еден знак и редоследот на знаците затворени во множеството знаци не е важен.
Класа на знаци | Значење |
---|---|
[ опсег ] | Симболот со квадратна заграда се користи за совпаѓање со опсег на знаци. На пример, можеме да го користиме за да дефинираме кој било знак во опсегот од азбуката „a“ до „z“ со затворање на опсегот во заградата како [a-z] Или, исто така можеме да се совпаднеме со нумеричката „1“ до „ 9“ со означувањеизрази користејќи некои примери во реално време. Сценарио 1: Потврдете ако влезната низа е составена од 6 цифри од азбучни знаци кои не се чувствителни на големи букви. Најчестото сценарио за редовно изразување е наоѓање и совпаѓање на даден збор. На пример, да речеме дека сакам случаен азбучен стринг од корисникот и тој влез треба да биде долг точно 6 цифри. За да потврдиме дека можеме да користиме едноставен регуларен израз. Ајде да напишеме програма за да го разбереме пишувањето и употребата на редовните изрази на подобар начин. public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("Helios")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("Helo")); } Излез Точно Неточно Објаснување Во овој пример, се обидуваме да потврдиме влезна низа, за да провериме дали содржи шестцифрени азбучни знаци. Знаците можат да бидат и со мали и со големи букви, така што треба да го земеме предвид и тоа. Значи, овде дефиниравме шема на регуларен израз во променливата „patternText“ и потоа ја префрливме во регекс објектот . Сега, следните линии на код се прилично едноставни, го користевме методот IsMatch за да ги споредиме регуларниот израз и низата за внесување. Ајде сега да го погледнеме регуларниот израз што го смисливме. Изразот (^[a-zA-Z]{6}$) е составен од 4 различни делови. „^“, „[a-zA-Z]“, „{6}“ и „$“. Вториот дел ги означува знаците што се совпаѓаат, што се користи за извршување на совпаѓање на изразите, „a-z“ за мали букви и „A-Z“ за големи букви. Првиотдел од знакот „^“ осигурува дека низата започнува со шема дефинирана во вториот дел, т.е. азбука со мала и голема буква. Кадравите загради во третиот дел го одредуваат бројот на знаци во низата што може да се идентификуваат според дефинираната шема, т.е. 6 во овој случај и симболот „$“ проверете дали завршува со шемата дефинирана во вториот дел. ^[a-zA-Z]{6}$ Сценарио 2: Користете регуларен израз за да потврдите дека зборот што започнува со „Супер“ и има празно место после тоа, т.е. да потврдите дали „Супер“ е присутен на почетокот на реченицата. Да претпоставиме дека читаме одреден влез од корисникот и треба да се увериме дека корисникот секогаш ја започнува својата реченица со одреден збор, број или азбука. Ова може да се постигне прилично лесно со користење на едноставен регуларен израз. Ајде да погледнеме примерок на програма и потоа детално да разговараме за тоа како да го напишеме овој израз. public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("Super man")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("Superhero")); } Излез Точно Неточно Објаснување И во овој пример користевме слично поставување на код како што направивме во првиот. Шемата за редовни изрази во ова сценарио бара совпаѓање со комбинација на зборови или реченици што почнуваат со „Супер“. ^Супер Значи, како што сакаме да се совпадне од почетокот на зборот серијата, ќе започнеме со ставање на симболот „^“, а потоа ќе го дадеме моделот што сакаме да се совпадне, во овој случај, „Супер“. Сега моделот[1-9] |
[^ опсег] | Ова ја означува класата на негирачки знаци. Се користи за да се совпадне со било што, а не во опсегот означен во заградата. |
\ | Ова се користи за совпаѓање на специјални знаци кои може да имаат свои регекс симболи. Косата се користи за совпаѓање на специјалните знаци во нивната буквална форма. |
Групирање
Кружни загради или загради може да се користат за групирање на дел од регуларниот изразување заедно. Ова му овозможува на корисникот или да додаде квантификатор со изразот.
Групирање | Значење |
---|---|
( група израз ) | Кружните загради се користат за групирање израз. |
знаци така што ќе го користи симболот „+“. Комбинирајте ги и го добиваме симболот за првиот дел. (\w+) Заградата го одвои ова на делови. Следниот дел е симболот на точка. Бидејќи симболот на точка има свое значење во регекс, ќе користиме обратна коса црта пред него за да му дадеме буквално значење. Комбинирајте ги двете и ги имаме покриените првите два дела од регексот. (\w+)\. Сега, за третиот и последен дел, можеме директно да ги дефинираме потребните екстензии на датотеки одделени со „падежни азбучни знаци. Ако сакате, можете да вклучите и нумерички или големи азбучни знаци, но за ова сценарио, ќе одиме со мали азбуки. Ако го додадеме изразот за мали азбуки со должина од 2 до 12 знаци, тогаш ќе го имаме следниот израз. ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12} Сега, само ни останува изразот за проширување на доменот, слично на четвртото сценарио, ќе се справиме со некои специфични екстензии на домен. Доколку сакате, можете да додадете повеќе од нив така што ќе ги затворите во кружна заграда и ќе ги одвоите со „ |