C# Regex Tutoriala: Zer da C# Adierazpen erregularra

C# Regex tutorial honek C#-n adierazpen erregularra zer den, bere sintaxia, Regex klase metodoak eta metodo hauek nola erabili adibideen laguntzarekin azaltzen du:

Adierazpen erregularra C#-n karaktere eredu jakin batekin bat etortzeko erabiltzen da. Adierazpen erregularrak erabiltzen dira erabiltzaileak errepikatzen den ereduren bat aurkitu behar duen bakoitzean edo datuen baliozkotze bat egin edo baita datuen formatua egiaztatzeko ere.

Erregulazio bat erabiltzen da kate batek karaktere eredu jakin bat duen edo bat datorren jakiteko. Regex bat, batez ere, eredu bat adierazten duen karaktere-sekuentzia bat da.

Eredu bat zenbakietatik, karakterez edo guztien konbinazioa izan daiteke. Regex baliozkotzeko oso erabilia da. Kateak analizatzea edo bat etortzea, adibidez, kate bat moneta-formatuarekin, telefono-zenbakiarekin edo data-formatuarekin bat datorren aurkitzea.

Regex Class In C#

Regex klasea C#-n erabiltzen da regex eragiketak egiteko. Regex-ekin erlazionatutako eragiketa desberdinak egiteko erabil daitezkeen hainbat metodo ditu.

Testu handia analizatzeko erabil daiteke karaktere-sekuentzia jakin bat aurkitzeko, parekatze bat egiteko erabil daitezkeen metodoak erabiliz, ordezkatu edo karaktere-sekuentzia zatitzeko erabil daiteke.

Erregulazio klasea izen-eremuaren barruan dago; Sistema.Testua.Adierazpen erregularra. Klaseak karaktere-sekuentzia moduan kate bat onartzen du parametro gisa.

C# Regex metodoak

“^Super” sortu genuena super balio guztiekin bat etor daiteke, baita superman edo naturaz gaindikoarekin ere, baina ez dugu “Super” hitza bakarrik nahi.

Horrek esan nahi du hitzaren ondoren zuriuneak egon behar direla. markatu hitzaren amaiera eta beste hitz baten hasiera. Horretarako "\s" ikurra gehituko diogu ereduari eta, horrela, gure azken eredua honela egingo dugu

^Super\s

3. agertokia: erabili adierazpen erregularra baliozko fitxategia aurkitzeko. irudi-fitxategi motaren luzapena duten izenak.

Garatzaileek sarritan jasaten duten denbora errealeko beste eszenatoki garrantzitsu bat fitxategi motak balioztatzea da. Demagun kargatzeko botoi bat daukagula UI-an, eta irudi-fitxategi motako luzapenak soilik onar ditzake.

Erabiltzaileak kargatzeko fitxategia balioztatu behar dugu eta fitxategi-formatu okerra kargatu badu jakinarazi. Hori erraz lor daiteke Adierazpen erregularra erabiliz.

Behean ematen den programa sinple bat da hori egiaztatzeko.

public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); //When pattern doesnt match Console.WriteLine(reg.IsMatch(".jpg")); Console.WriteLine(reg.IsMatch("ask.jpegj")); 

Irteera

Egia

Egia

Egia

Gezurra

Gezurra

Azalpena

Hemen bat etorri behar dugu fitxategi izena. Baliozko fitxategi-izena hiru zatiz osatuta dago ( fitxategiaren izena + . + fitxategi-luzapena ). Adierazpen erregular bat sortu behar dugu hiru zatiak bat etor daitezen. Has gaitezen lehen zatiarekin bat etortzen, hau da, fitxategiaren izena. Fitxategi-izen batek karaktere alfanumeriko eta bereziak izan ditzake.

Lehen esan bezala, hori adierazteko ikurra “\w” da. Gainera, fitxategiaren izena bat edo gehiago izan daitekeondoren, puntu bat (.) ondoren webgunearen izena puntu bat (.) eta amaieran domeinu-luzapena.

Beraz, aurreko eszenatokiaren antzera zatiz zati bat egiten saiatuko gara. . Has gaitezen "www" bat etortzen. Zatia. Beraz, hasierako sinboloarekin hasiko gara, gero "www" gisa. Konpontzen den zerbait da, beraz, hasierako ikurra eta ondoren hitz zehatzak erabiltzen ditugu lotzeko.

“^www.”

Ondoren, bigarren zatia lantzen hasiko gara. Web helbidearen bigarren zatia edozein izen alfanumeriko izan daiteke. Beraz, hemen karaktere klasean dauden kortxeteak erabiliko ditugu bat egin behar den barrutia definitzeko. Bigarren zatia bigarren zatiarekin gehitu ondoren emango digu.

“^www.[a-zA-Z0-9]{3,20}”

Hemen giltza kizkur gehitu dugu webgunearen izenaren karaktere-luzera minimo eta maximoa definitzeko. Gutxienez 3 eta gehienez 20 eman ditugu. Nahi duzun gutxieneko edo gehienezko luzera eman dezakezu.

Orain, web-helbidearen lehen eta bigarren zatiak estali ondoren, azkenekoarekin geratzen gara. zatia, hau da, domeinuaren luzapena. Azken eszenatokian egin genuenaren nahiko antzekoa da, zuzenean bat egingo dugu domeinu-luzapenekin OR erabiliz eta baliozko domeinu-luzapen guztiak kortxete zirkular barruan sartuz.

Horrela, hauek guztiak batzen baditugu izango dugu. Adierazpen erregular osoa baliozko edozein web-helbiderekin bat etor dadin.

www.[a-zA-Z0-9]{3,20}.(com|in|org|co\.in|net|dev)$

5. agertokia: Erabili adierazpen erregularra baliozkotzekoposta elektronikoaren id formatua

Demagun gure web orrian saioa hasteko inprimaki bat dugula, erabiltzaileei euren helbide elektronikoa sartzeko eskatzen diena. Ageriko arrazoiengatik, ez dugu nahi gure inprimakiak helbide elektroniko baliogabeekin aurrera jarraitzea. Erabiltzaileak sartutako helbide elektronikoa zuzena den edo ez balioztatzeko, adierazpen erregular bat erabil dezakegu.

Jarraian, helbide elektroniko bat balioztatzeko programa sinple bat dago.

public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com|org|co\.in|net)"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("[email protected]")); Console.WriteLine(reg.IsMatch("[email protected]")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("[email protected]")); }

Irteera

Egiazkoa

Egiazkoa

Gezurra

Azalpena

A baliozko helbide elektronikoak alfabetoak, zenbakiak eta karaktere berezi batzuk ditu, hala nola puntua (.), marra (-) eta azpimarra (_) eta ondoren "@" ikurra eta ondoren domeinuaren izena eta domeinuaren luzapena.

Horrela, helbide elektronikoa lau zatitan bana dezakegu, hau da, helbide elektronikoaren identifikatzailea, “@” ikurra, domeinuaren izena eta azkena domeinuaren luzapena.

Has gaitezen adierazpen erregular bat idazten. lehen zatia. Karaktere berezi batzuekin alfanumerikoa izan daiteke. Demagun 5 eta 25 karaktere arteko espresioaren tamaina dugula. Lehen idatzi genuenaren antzera (mezu elektronikoaren eszenatokian), honako espresio hau atera dezakegu.

^[a-zA-Z0-9\._-]{5,25}

Orain, bigarren zatira joango gara. Konparatiboki erraza da, ikur bakarrarekin bat egin behar baitugu, hau da, "@". Goiko esapideari gehitzeak ematen digu.

^[a-zA-Z0-9\._-]{5,25}.@

Hirugarren zatira pasatzeak, hau da, domeinu-izena beti beheko serie bat izango da.bat datozen hitzak, alfabetoak, webguneen helbideak, posta elektronikoaren IDak eta baita fitxategi motak eta luzapenak ere.

Eszenatoki hauek nahiko erabilgarriak dira erabiltzaileen sarrerak denbora errealean baliozkotzeko kode lerro ugari idatzi gabe eta, ondorioz, denbora eta denbora aurrezteko laguntzen dute. konplexutasuna murriztea. Adibide hauek erabiltzailea bere adierazpen erregular multzoa sortzera bideratzeko erabili dira eta, horrela, beste hainbat eszenatoki kudeatzen laguntzeko.

Erregex sinplea izan daiteke alfabetoa edo zenbakiak erabiltzea bezalako serie jakin batekin bat etortzeko. karaktereak edo konplexuak karaktere berezien, zenbatzaileen, karaktere-klaseen eta abarren konbinazioa erabiliz formatu konplexuak balioztatzeko edo karaktere-seriean eredu zehatz bat bilatzeko.

Laburbilduz, adierazpen erregularra nahiko bat da. Programatzaile batentzako tresna indartsua eta datuen parekatze edo baliozkotze zeregin batean betetzeko behar den kode kopurua murrizten laguntzen du.

IsMatch

Regex klaseko metodorik errazena eta erabilgarriena IsMatch metodoa da. Metodo honek gainkarga desberdinak ditu parametro ezberdinetan oinarritutako karaktereak bat etortzeko.

Errazena

Ordezkatu (String text, String replacementText)

Ordezkatzeko metodoak bi onartzen ditu. parametroak eta kate balio bat itzultzen du. Lehenengo parametroa bat etortzeko erabili nahi duzun karaktere-sekuentzia edo regex da eta bigarrena regex ordezkatzea da.

Metodoak emandako testuaren bat-etortze bat bilatuz funtzionatzen du eta ondoren hori ordezkatzen du. erabiltzaileak emandako ordezko testua. Metodoaren sinadura kate publikoa Ordeztu (katearen testua, katearen ordezko testua)

Kate publikoa[] Split(katearen testua)

Zatitu metodoa regex klasetik katea sarrera onartzen du parametro gisa eta azpikateak dituen array bat itzultzen du. Metodoan pasatzen den parametroa zatitu behar den katea da.

Metodoak bat datorren sarrera-eredua aurkitzen du katean eta bat datorren eredua identifikatu ondoren, leku horretan katea azpikate txikiago batean zatitzen du. bat datorren eredu bakoitza haustura puntua izanik. Ondoren, metodoak azpikate guztiak dituen array bat itzultzen du.

Regex C# metodoen erabilera

Ikus dezagun metodo hauen erabilera programa sinple bat idatziz.

public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(string input) Console.WriteLine(reg.IsMatch("Hello World")); //IsMatch(string input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(string input, string pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(string input, string replacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } }

Aurrekoaren irteeraprograma

Egiazkoa

Egiazkoa

Egiazkoa

Ordezkatu mundua

Kaixo

Mundua

Gaur

Goiko kodearen azalpena:

Programaren hasieran, objektu bat sortu dugu eta erabiliko dugun eredurako. Hurrengo katearen sarreran kodea bat etortzeko, testu-formatua erabili dugu hasieran gauzak erraz mantentzeko, baina eroso bazaude adierazpen erregular ereduak erabiltzen has zaitezke. (Tutorial honetan aurrera goazen heinean adierazpen erregular eredua zehatz-mehatz eztabaidatuko dugu)

Ondoren, bat datorren katea erabiliko dugu sarrerako katearekin zehaztutako objektu gisa deklaratu dugun faktorea sartzeko eta bat badator. ondoren, false itzuliko da.

Erabili dugun hurrengo metodoa IsMethod(kate input, int indizea) da. Metodo honek bi parametro onartzen ditu, eta hemen sarrerako katea eta partida hasi behar den indizea eskaintzen dugu. Adibidez, hemen sarrerako katearen hasieratik hasi nahi izan dugu bat etortzea.

Ondoren, IsMatch (kate sarrera, kate eredua) erabiltzen dela erakutsi dugu. Hemen sarrerako katea eman dugu, orduan ereduaren testua sarreran dagoen edo ez dagoela aurkitu nahi dugu. Oraina bada, egia itzuliko du (gure kasuan bezala), bestela false itzuliko da.

Aztertu dugun beste metodo bat ordezkatzen da. Metodo hau nahiko erabilgarria da sarrerako datuetan aldaketak egin nahi dituzun programetanedo aldatu lehendik dauden datuen formatua.

Hemen bi parametro ematen ditugu, lehenengoa sarrerako katea da eta bigarrena aurreko katea ordezkatzeko erabil daitekeen katea da. Metodo honek lehenago definitu dugun regex objektuan definitutako eredua ere erabiltzen du.

Erabili dugun beste metodo garrantzitsu bat zatitua da. Metodo hau eredu errepikakorretan oinarritutako katea zatitzeko erabiltzen da. Hemen, "Hello_World_Today" kate bat eman dugu.

Demagun emandako kateari azpimarra kendu eta azpikateak lortu nahi ditugula. Horretarako, sarrera-parametroa zehazten dugu eta gero zatiketa-puntu gisa erabili behar dugun eredua emango dugu. Metodoak array bat itzultzen du eta foreach bezalako begizta soil bat erabil dezakegu kate guztiak berreskuratzeko.

Adierazpen erregular sintaxia

Hainbat sintaxia daude, hala nola karaktere bereziak, zenbatzaileak, karaktere klaseak, Sarrera jakin batetik eredu jakin bat etortzeko erabil daitezkeen eta abar.

Tutorialaren zati honetan, regex-ek eskaintzen duen sintaxian sakonduko dugu eta bizitza errealeko eszenatoki batzuk konpontzen saiatuko gara. haiek erabiliz. Aurrera egin aurretik, ziurtatu regex-en oinarrizko ideia eta regex klasean eskuragarri dauden metodo desberdinak lortu dituzula.

Karaktere bereziak

Erregulazio erregular bateko karaktere bereziak hainbat esanahi esleitzeko erabiltzen dira. eredu bati. Orain ikusiko duguoso erabiliak diren karaktere berezi batzuk eta haien esanahia Regex-en.3

Caraktere bereziak Esanahia
^ Hau sintaxirik erabilienetako bat da. Hasiera, hitza edo eredua adierazten du sarrerako testuaren hasieratik bat egiten hasten den ondoren.
$ Zeinu hau amaieratik hitzak lotzeko erabiltzen da. katearena. Ikur honen aurretik adierazitako hitzak/ereduak katearen amaieran dauden hitzekin bat etorriko dira.
. (puntua) Puntua emandako katean karaktere bakarra bat etortzeko erabiltzen da.
\n Hau berri batetarako erabiltzen da. lerroa.
\d eta \D 'd' letra xehea erabiltzen da digituko karaktere batekin bat etortzeko eta 'D' maiuskulaz zifra ez direnekin bat etortzeko. karaktereak.
\s eta \S 's' minuskulak zuriuneak etortzeko erabiltzen dira eta 'S' maiuskulak zuriak ez diren zuriuneak etortzeko. .
\w eta \W 'w' letra xehea erabiltzen da alfanumeriko/azpimarra karaktereekin bat etortzeko eta 'W' letra larria erabiltzen da hitzak ez direnekin bat etortzeko. karaktereak.

Zenbatzaile-sintaxia

Kantifikatzaile-sintaxia bat datozen irizpideak zenbatzeko edo kuantifikatzeko erabiltzen da. Adibidez, kate jakin batek alfabeto bat duen behin edo gehiagotan egiaztatu nahi baduzu. Ikus ditzagun Adierazpen erregularrean erabili ohi diren zenbatzaile batzuk.

KantifikatzaileaSintaxia Esanahia
* Ikur hau aurreko karakterearekin bat etortzeko erabiltzen da.
+ Ikur hau karaktere bat edo gehiago jarraitzeko erabiltzen da.
{n} Kizkurren barruan dagoen zenbakizko zifra giltzak giltza kizkurren barruan zenbakiz definitutako aurreko karakterearen zenbakiarekin bat etortzeko erabiltzen da.
{n,} Gesten barneko zenbakia eta ikur hau erabiltzen dira. gutxienez n bat datorrela ziurtatzeko (hau da, giltzen barruan zenbakizko balioa).
{n, m} Ikur hau aurreko karakterearekin bat etortzeko erabiltzen da. n aldiz eta m aldiz.
? Ikur honek aurreko karaktereak aukeran bat etortzen ditu.

Karaktere-klasea

Caraktere-klasea karaktere-multzo gisa ere ezagutzen da, eta hau erabiltzen da erreex-motoreari hainbat karaktereren parekatze bakarra bilatzeko esateko. Karaktere-klase batek karaktere bakarrarekin bat egingo du eta karaktere-multzoaren barruan dauden karaktereen ordenak ez du axola.

Caraktere klasea Esanahia
[ barrutia ] Karetxete ikurra karaktere sorta batekin bat etortzeko erabiltzen da. Esate baterako, "a"tik "z" alfabetotik "z" bitarteko edozein karaktere definitzeko erabil dezakegu sorta [a-z] bezalako [a-z]

bezalako tartea sartuz, "1" zenbakiarekin ere lotu dezakegu. 9” adierazizdenbora errealeko adibide batzuk erabiliz adierazpenak.

1. agertokia: balioztatu sarrerako katea 6 digituko maiuskulak eta minuskulak bereizten ez dituzten alfabetoko karaktereez osatuta dagoen.

Adierazpen erregularraren eszenatoki ohikoena hitz jakin bat aurkitzea eta bat etortzea da. Adibidez, demagun erabiltzailearen ausazko kate alfabetikoa nahi dudala eta sarrera horrek 6 zifrako luzera izan behar duela.

Hori baliozkotzeko adierazpen erregular sinple bat erabil dezakegu. Idatz dezagun programa bat adierazpen erregularrak idaztea eta erabilera hobeto ulertzeko.

public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("Helios")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("Helo")); }

Irteera

Egia

Gezurra

Azalpena

Adibide honetan, sarrerako kate bat balioztatzen saiatzen ari gara, sei digituko karaktere alfabetikoak dituen egiaztatzeko. Karaktereak minuskulaz eta maiuskulaz izan daitezke, beraz, hori ere kontuan hartu behar dugu.

Beraz, hemen adierazpen erregular-eredu bat definitu dugu "patternText" aldagaian eta, ondoren, regex objektura pasatu dugu. . Orain, hurrengo kode-lerroak nahiko sinpleak dira, IsMatch metodoa erabili dugu adierazpen erregularra eta sarrera-katea alderatzeko.

Ikus dezagun orain asmatu dugun adierazpen erregularra. Adierazpena (^[a-zA-Z]{6}$) 4 zati ezberdinez osatuta dago. “^”, “[a-zA-Z]”, “{6}” eta “$”. Bigarren zatiak bat datozen karaktereak adierazten ditu, hau da, esamoldeak bat etortzeko erabiltzen dena, "a-z" letra xeheetarako eta "A-Z" letra larrizetarako.

Lehenengoa."^" zatiko karaktereak bermatzen du katea bigarren zatian definitutako eredu batekin hasten dela, hau da, alfabeto xeheak eta maiuskulak.

Hirugarren zatiko giltza kizkurek identifikatu daitekeen katearen karaktere kopurua zehazten dute. definitutako ereduaren arabera, hau da, 6 kasu honetan eta “$” ikurra ziurtatu bigarren zatian definitutako ereduarekin amaitzen dela.

^[a-zA-Z]{6}$

2. agertokia: Erabili adierazpen erregularra "Super"-z hasten den eta horren ondoren zuriuneak dituen hitza balioztatzeko, hau da, "Super" esaldi baten hasieran dagoen balioztatzeko.

Demagun erabiltzailearen sarrera batzuk irakurtzen ari garela eta ziurtatu behar dugula erabiltzaileak beti bere esaldia hitz, zenbaki edo alfabeto jakin batekin hasten duela. Hori nahiko erraz lor daiteke adierazpen erregular soil bat erabiliz.

Ikus dezagun programa lagin bat eta eztabaida dezagun zehatz-mehatz adierazpen hau nola idatzi.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); //When pattern matches Console.WriteLine(reg.IsMatch("Super man")); //When pattern doesnt match Console.WriteLine(reg.IsMatch("Superhero")); }

Irteera

Egia

Gezurra

Azalpena

Adibide honetan ere, antzeko kode konfigurazioa erabili dugu. lehenengoa. Eszenatoki honetako adierazpen erregular ereduak "Super"-z hasten diren hitz edo esaldi konbinazio batekin lotzea eskatzen du.

^Super

Beraz, hitzaren hasieratik bat etortzea nahi dugunez. seriea, “^” ikurra jarriz hasiko gara, gero bat etorri nahi dugun eredua emango dugu, kasu honetan, “Super”. Orain eredua[1-9]

[^ barrutia] Horrek karaktere-klase ezeztatua adierazten du. Edozer bat etortzeko erabiltzen da, ez kortxetearen barruan adierazitako barrutian.
\ Hau bere erregimen ikurrak izan ditzaketen karaktere bereziak lotzeko erabiltzen da. Barra erabiltzen da karaktere bereziak beren forma literalean lotzeko.

Taldekatzea

Parentesi biribilak edo parentesiak erabil daitezke ohikoaren zati bat taldekatzeko. elkarrekin adierazpena. Honi esker, erabiltzaileak zenbatzaile bat gehi dezake adierazpenarekin.

Taldekatzea Esanahia
( taldea adierazpena ) Kantxete biribilak esamolde bat taldekatzeko erabiltzen dira.
karaktereak, beraz, "+" ikurra erabiliko du. Konbinatu eta lehenengo zatiaren ikurra lortuko dugu.
(\w+)

Parentesiak zatika bereizten ditu. Hurrengo zatia puntuaren ikurra da. Puntuaren sinboloak bere esanahia regex batean daukanez, atzera-barra erabiliko dugu haren aurretik esanahi literala emateko. Konbinatu biak eta regex-aren lehen bi zatiak estalita ditugu.

(\w+)\.

Orain, hirugarren eta azken zatirako, zuzenean defini ditzakegu beharrezko fitxategi-luzapenak bereizita “kasuen karaktere alfabetikoak. Nahi izanez gero, zenbakizko karaktere alfabetikoak edo maiuskulak ere sar ditzakezu, baina egoera honetarako, alfabeto minuskularekin joango gara.

2 eta 12 karaktere arteko luzera duten alfabeto minuskularen adierazpena gehitzen badugu, ondoren, honako adierazpena izango dugu.

^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}

Orain, domeinuaren luzapenaren adierazpena besterik ez zaigu geratzen, laugarren eszenatokiaren antzera, domeinu-luzapen zehatz batzuk kudeatuko ditugu. Nahi izanez gero, gehiago gehi ditzakezu kortxete zirkular baten barruan sartuz eta bereiziz "

Gora joan