Esercitazione sulle regressioni in C#: cos'è un'espressione regolare in C#

Questo tutorial su Regex in C# spiega cos'è un'espressione regolare in C#, la sua sintassi, i metodi della classe Regex e come utilizzarli con l'aiuto di esempi:

L'espressione regolare in C# viene utilizzata per far corrispondere un particolare modello di caratteri. Le espressioni regolari vengono utilizzate ogni volta che l'utente ha bisogno di trovare un modello che si ripete o di eseguire una convalida dei dati o anche per controllare la formattazione dei dati.

Una RegEx viene utilizzata per trovare se una stringa contiene o corrisponde a un determinato schema di caratteri. Una regex è principalmente una sequenza di caratteri che denota uno schema.

Un modello può essere qualsiasi cosa, dai numeri ai caratteri, o una combinazione di tutti. Regex è ampiamente utilizzato per la convalida, il parsing o la corrispondenza delle stringhe, ad esempio, per scoprire se una stringa corrisponde al formato della valuta, del numero di telefono o della data.

Classe Regex in C#

La classe Regex viene utilizzata in C# per eseguire operazioni regex e contiene diversi metodi che possono essere utilizzati per eseguire diverse operazioni relative alle regex.

Può essere utilizzato per analizzare testi di grandi dimensioni per trovare una particolare sequenza di caratteri utilizzando metodi che possono essere utilizzati per eseguire una corrispondenza, per sostituire o per dividere la sequenza di caratteri.

La classe regex è presente all'interno dello spazio dei nomi; System.Text.RegularExpression. La classe accetta come parametro una stringa sotto forma di sequenza di caratteri.

Metodi Regex in C#

IsMatch

Il metodo più semplice e utile della classe Regex è il metodo IsMatch, che ha diversi sovraccarichi per eseguire la corrispondenza dei caratteri in base a diversi parametri.

Il più semplice è

Replace(String text, String replacementText)

Il metodo replace accetta due parametri e restituisce un valore stringa. Il primo parametro è la sequenza di caratteri o la regex che si desidera utilizzare per la corrispondenza e il secondo è la sostituzione della regex.

Il metodo funziona trovando una corrispondenza con il testo dato e poi lo sostituisce con il testo sostitutivo fornito dall'utente. La firma del metodo è public string Replace(string text, string replacementText)

Stringa pubblica[] Split(testo stringa)

Il metodo split della classe regex accetta una stringa come parametro e restituisce un array contenente delle sottostringhe. Il parametro passato nel metodo è la stringa che deve essere divisa.

Il metodo trova il modello di input corrispondente nella stringa e, una volta identificato un modello corrispondente, divide la stringa in quel punto in sottostringhe più piccole e ogni modello corrispondente è il punto di interruzione. Il metodo restituisce quindi un array contenente tutte le sottostringhe.

Uso dei metodi Regex C#

Diamo un'occhiata all'uso di questi metodi scrivendo un semplice programma.

 public static void Main(string[] args) { string patternText = "Hello"; Regex reg = new Regex(patternText); //IsMatch(stringa input) Console.WriteLine(reg.IsMatch("Hello World")); //IsMatch(stringa input, int index) Console.WriteLine(reg.IsMatch("Hello", 0)); //IsMatch(stringa input, stringa pattern) Console.WriteLine(Regex.IsMatch("Hello World", patternText)); //Replace(stringa input, stringareplacement) Console.WriteLine(reg.Replace("Hello World", "Replace")); //Split(string input, string pattern) string[] arr = Regex.Split("Hello_World_Today", "_"); foreach(string subStr in arr) { Console.WriteLine("{0}", subStr); } } 

L'output del programma precedente

Vero

Vero

Vero

Sostituire il mondo

Ciao

Mondo

Oggi

La spiegazione del codice sopra riportato:

All'inizio del programma, abbiamo creato un oggetto e per il modello che utilizzeremo per la corrispondenza del codice nell'inserimento delle stringhe successive, abbiamo utilizzato la formattazione del testo per mantenere le cose semplici all'inizio, ma se vi sentite a vostro agio potete iniziare a utilizzare i modelli di espressione regolare (discuteremo in dettaglio i modelli di espressione regolare man mano che andremo avanti in questo tutorial).

Quindi, utilizzeremo match string per inserire il fattore che abbiamo dichiarato come oggetto specificato con la stringa di input e, se corrisponde, restituirà false.

Il metodo successivo è IsMethod(string input, int index). Questo metodo accetta due parametri e qui forniamo la stringa di input e l'indice da cui deve partire la corrispondenza. Ad esempio, in questo caso si vuole iniziare la corrispondenza dall'inizio della stringa in ingresso.

Abbiamo poi dimostrato l'uso di IsMatch(string input, string pattern). Qui abbiamo fornito la stringa di input e volevamo scoprire se il testo del pattern è presente o meno nell'input. Se è presente, allora restituirà true (come nel nostro caso) altrimenti restituirà false.

Un altro metodo di cui abbiamo parlato è quello della sostituzione, molto utile nei programmi in cui si vogliono apportare modifiche ai dati di input o cambiare il formato dei dati esistenti.

Qui vengono forniti due parametri, il primo è la stringa di input e il secondo è la stringa che può essere utilizzata per sostituire la stringa precedente. Questo metodo utilizza anche il pattern definito nell'oggetto regex che abbiamo definito in precedenza.

Un altro metodo importante che abbiamo usato è split. Questo metodo viene usato per dividere la stringa data in base ad alcuni schemi ricorrenti. Qui abbiamo fornito la stringa "Hello_World_Today".

Supponiamo di voler rimuovere il trattino basso dalla stringa data e di ottenere le sottostringhe. Per questo, specifichiamo il parametro di input e poi diamo il pattern che dobbiamo usare come punto di divisione. Il metodo restituisce un array e possiamo usare un semplice ciclo come foreach per recuperare tutte le stringhe.

Sintassi dell'espressione regolare

Esistono diverse sintassi, come i caratteri speciali, i quantificatori, le classi di caratteri e così via, che possono essere utilizzate per trovare una corrispondenza con un determinato modello da un dato input.

In questa parte del tutorial, ci immergeremo in profondità nella sintassi offerta dalle regex e cercheremo di risolvere alcuni scenari reali utilizzandole. Prima di procedere, assicuratevi di aver acquisito l'idea di base delle regex e dei diversi metodi disponibili all'interno della classe regex.

Caratteri speciali

I caratteri speciali in una regex sono utilizzati per assegnare diversi significati a uno schema. Vediamo ora alcuni dei caratteri speciali più utilizzati e il loro significato in Regex.3

Caratteri speciali Significato
^ È una delle sintassi più utilizzate: indica l'inizio, la parola o il modello dopo il quale inizia la corrispondenza dall'inizio del testo in ingresso.
$ Questo segno viene utilizzato per abbinare le parole alla fine della stringa. Le parole/modelli indicati prima di questo simbolo si abbinano alle parole presenti alla fine della stringa.
. (punto) Il punto viene utilizzato per far corrispondere un singolo carattere della stringa data che si verifica una sola volta.
\n Viene utilizzato per una nuova linea.
\d e \D La lettera "d" minuscola viene utilizzata per abbinare un carattere numerico, mentre la lettera "D" maiuscola viene utilizzata per abbinare caratteri non numerici.
\ e \S La "s" minuscola viene utilizzata per gli spazi bianchi e la "S" maiuscola per gli spazi non bianchi.
\w e \W La lettera "w" minuscola viene utilizzata per abbinare i caratteri alfanumerici/underscore, mentre la lettera "W" maiuscola viene utilizzata per abbinare i caratteri non parodici.

Sintassi del quantificatore

La sintassi dei quantificatori viene utilizzata per contare o quantificare i criteri di corrispondenza. Ad esempio, se si vuole verificare se una determinata stringa contiene uno o più alfabeti. Vediamo alcuni dei quantificatori comunemente usati nelle espressioni regolari.

Sintassi del quantificatore Significato
* Questo simbolo viene utilizzato per abbinare il carattere precedente.
+ Questo simbolo viene utilizzato per abbinare uno o più caratteri in una riga.
{n} La cifra numerica all'interno delle parentesi graffe viene utilizzata per corrispondere al numero del carattere precedente definito da numeric all'interno delle parentesi graffe.
{n,} Il numero all'interno delle parentesi graffe e questo simbolo vengono utilizzati per assicurarsi che corrispondano ad almeno n (cioè il valore numerico all'interno delle parentesi graffe).
{n, m} Questo simbolo viene usato per abbinare il carattere precedente da un numero n di volte a un numero m di volte.
? Questo simbolo fa corrispondere i caratteri precedenti come opzionali.

Classe di carattere

La classe di caratteri, nota anche come set di caratteri, viene utilizzata per indicare al motore regex di cercare una singola corrispondenza tra diversi caratteri. Una classe di caratteri corrisponde a un solo carattere e l'ordine dei caratteri racchiusi nel set di caratteri non ha importanza.

Classe di carattere Significato
[ range ] Il simbolo della parentesi quadra viene utilizzato per definire un intervallo di caratteri. Ad esempio, possiamo usarlo per definire qualsiasi carattere nell'intervallo compreso tra l'alfabeto "a" e "z", racchiudendo l'intervallo all'interno della parentesi come [a-z].

Oppure, possiamo anche abbinare i numeri da "1" a "9", indicando [1-9].

[^ gamma] Denota la classe di caratteri di negazione, utilizzata per abbinare qualsiasi cosa che non rientri nell'intervallo indicato all'interno della parentesi.
\ Viene utilizzato per abbinare i caratteri speciali che possono avere i propri simboli regex. La barra viene utilizzata per abbinare i caratteri speciali nella loro forma letterale.

Raggruppamento

Le parentesi tonde o le parentesi possono essere utilizzate per raggruppare una parte dell'espressione regolare, consentendo all'utente di aggiungere un quantificatore all'espressione.

Raggruppamento Significato
( espressione di gruppo ) Le parentesi tonde vengono utilizzate per raggruppare un'espressione.
Il

Esempi di espressioni regolari in C#

Nella sezione precedente abbiamo imparato a conoscere i simboli delle espressioni regolari; in questa sezione analizzeremo in dettaglio l'uso dei diversi simboli nelle espressioni regolari e la combinazione con cui possono essere utilizzati per corrispondere a diverse espressioni.

In questa esercitazione, discuteremo alcuni degli scenari reali più comuni che potreste incontrare come sviluppatori mentre lavorate a un'applicazione o a un semplice programma per ottenere input dall'utente.

Esempio di espressione regolare con scenari reali

Impariamo a conoscere meglio le espressioni regolari con alcuni esempi in tempo reale.

Scenario 1: convalida se la stringa di input è composta da caratteri alfabetici di 6 cifre senza distinzione tra maiuscole e minuscole.

Uno degli scenari più comuni per le espressioni regolari è la ricerca e la corrispondenza di una determinata parola. Ad esempio, Supponiamo di volere una stringa alfabetica casuale dall'utente e che l'input sia lungo esattamente 6 cifre.

Per convalidarlo possiamo usare una semplice espressione regolare. Scriviamo un programma per capire meglio la scrittura e l'uso delle espressioni regolari.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z]{6}$"; Regex reg = new Regex(patternText); /Quando il pattern corrisponde Console.WriteLine(reg.IsMatch("Helios")); /Quando il pattern non corrisponde Console.WriteLine(reg.IsMatch("Helo")); } 

Uscita

Vero

Falso

Spiegazione

In questo esempio, stiamo cercando di convalidare una stringa di input, per verificare se contiene caratteri alfabetici a sei cifre. I caratteri possono essere sia minuscoli che maiuscoli, quindi dobbiamo tenerne conto.

Quindi, abbiamo definito un modello di espressione regolare nella variabile "patternText" e l'abbiamo passato nell'oggetto regex. Ora, le prossime righe di codice sono piuttosto semplici: abbiamo usato il metodo IsMatch per confrontare l'espressione regolare e la stringa in ingresso.

Diamo ora un'occhiata all'espressione regolare che abbiamo ideato. L'espressione (^[a-zA-Z]{6}$) è composta da 4 parti diverse: "^", "[a-zA-Z]", "{6}" e "$". La seconda parte indica i caratteri di corrispondenza, utilizzati per eseguire la corrispondenza dell'espressione, "a-z" per le lettere minuscole e "A-Z" per le lettere maiuscole.

Il carattere "^" della prima parte assicura che la stringa inizi con un modello definito nella seconda parte, ovvero con alfabeti minuscoli e maiuscoli.

Le parentesi graffe nella terza parte determinano il numero di caratteri della stringa che possono essere identificati dal modello definito, cioè 6 in questo caso, e il simbolo "$" assicura che finisca con il modello definito nella seconda parte.

^[a-zA-Z]{6}$

Scenario 2: Usare l'espressione regolare per convalidare che una parola che inizia con "Super" e ha uno spazio bianco dopo di essa, cioè per convalidare se "Super" è presente all'inizio di una frase.

Supponiamo di leggere alcuni input dell'utente e di doverci assicurare che l'utente inizi sempre la frase con una particolare parola, numero o alfabeto. Questo si può ottenere facilmente utilizzando una semplice espressione regolare.

Vediamo un esempio di programma e poi discutiamo in dettaglio come scrivere questa espressione.

 public static void Main(string[] args) { string patternText = @"^Super\s"; Regex reg = new Regex(patternText); /Quando il pattern corrisponde Console.WriteLine(reg.IsMatch("Super man")); /Quando il pattern non corrisponde Console.WriteLine(reg.IsMatch("Superhero")); } 

Uscita

Vero

Falso

Spiegazione

Anche in questo esempio abbiamo utilizzato una configurazione del codice simile a quella del primo. Il modello di espressione regolare in questo scenario richiede la corrispondenza con una combinazione di parole o frasi che iniziano con "Super".

^Super

Quindi, dato che vogliamo abbinare dall'inizio della serie di parole, inizieremo mettendo il simbolo "^", poi daremo il pattern che vogliamo abbinare, in questo caso, "Super". Ora il pattern che abbiamo creato "^Super" può abbinare tutti i valori di super, anche superman o supernatural, ma non vogliamo solo la parola "Super".

Ciò significa che deve esserci uno spazio bianco dopo la parola per segnare la fine della parola e l'inizio di un'altra parola. Per fare ciò, aggiungeremo il simbolo "\s" al modello, rendendo così il nostro modello finale come

^Super\\s

Scenario 3: Utilizzare un'espressione regolare per trovare nomi di file validi con un'estensione di tipo immagine.

Un altro importante scenario in tempo reale che gli sviluppatori si trovano spesso ad affrontare è la convalida dei tipi di file. Supponiamo di avere un pulsante di upload nell'interfaccia utente, che può accettare solo estensioni di file di tipo immagine.

Dobbiamo convalidare il file caricato dall'utente e informarlo nel caso in cui abbia caricato un formato di file errato. Questo può essere facilmente ottenuto utilizzando un'espressione regolare.

Di seguito è riportato un semplice programma per verificarlo.

 public static void Main(string[] args) gif)$"; Regex reg = new Regex(patternText); /Quando il pattern corrisponde Console.WriteLine(reg.IsMatch("abc.jpg")); Console.WriteLine(reg.IsMatch("ab_c.gif")); Console.WriteLine(reg.IsMatch("abc123.png")); /Quando il pattern non corrisponde Console.WriteLine(reg.IsMatch(".jpg"); Console.WriteLine(reg.IsMatch("ask.jpegj")); 

Uscita

Vero

Vero

Vero

Falso

Falso

Spiegazione

Un nome di file valido è composto da tre parti ( nome del file + . + estensione del file ). Dobbiamo creare un'espressione regolare che corrisponda a tutte e tre le parti. Iniziamo con la prima parte, cioè il nome del file. Un nome di file può contenere caratteri alfanumerici e speciali.

Come già discusso in precedenza, il simbolo che lo indica è "\w". Inoltre, il nome del file può essere composto da uno o più caratteri, quindi utilizzeremo il simbolo "+". Combinandoli, otterremo il simbolo della prima parte.

 (\w+) 

La parte successiva è il simbolo del punto. Poiché il simbolo del punto ha il suo significato in una regex, useremo un backslash prima di esso per dargli un significato letterale. Combinando entrambi, abbiamo le prime due parti della regex.

 (\w+)\. 

Ora, per la terza e ultima parte, possiamo definire direttamente le estensioni dei file richiesti, separate da "

 (\w+)\.(jpg 

Ora, se lo utilizziamo nel programma, possiamo vedere che corrisponde al formato corretto e restituisce true, ma con i formati non validi restituisce false.

Scenario 4: Utilizzare un'espressione regolare per convalidare il formato dell'indirizzo di un sito web

Supponiamo di avere un modulo web che accetta un indirizzo web o di dominio. Vogliamo che l'utente inserisca l'indirizzo web/dominio corretto durante la compilazione del modulo. Per determinare se l'utente ha inserito un indirizzo web corretto, un'espressione regolare può essere molto utile.

 public static void Main(string[] args) { string patternText = @"^www.[a-zA-Z0-9]{3,20}.(com 

Uscita

Vero

Falso

Spiegazione

Un nome di dominio valido inizia con l'abbreviazione "www" seguita da un punto (.), poi il nome del sito web, quindi un punto (.) e infine l'estensione del dominio.

Quindi, in modo simile allo scenario precedente, cercheremo di abbinarlo parte per parte. Cominciamo con l'abbinare la parte "www.". Quindi iniziamo con il simbolo iniziale, poi come "www." È qualcosa di fisso, quindi usiamo il simbolo iniziale seguito dalle parole esatte da abbinare.

 "^www." 

Poi inizieremo a lavorare sulla seconda parte. La seconda parte dell'indirizzo web può essere un qualsiasi nome alfanumerico. Quindi, qui useremo le parentesi quadre presenti nella classe di caratteri per definire l'intervallo che deve essere abbinato. Dopo aver aggiunto la seconda parte con la seconda parte, otterremo il risultato.

 “^www.[a-zA-Z0-9]{3,20}” 

Qui abbiamo aggiunto anche le parentesi graffe per definire la lunghezza minima e massima dei caratteri per il nome del sito web. Abbiamo dato un minimo di 3 e un massimo di 20. Si può dare qualsiasi lunghezza minima o massima che si desidera.

Ora, dopo aver trattato la prima e la seconda parte dell'indirizzo web, ci rimane solo l'ultima parte, cioè l'estensione del dominio. È abbastanza simile a quello che abbiamo fatto nell'ultimo scenario, faremo una corrispondenza diretta con le estensioni del dominio usando OR e racchiudendo ogni estensione di dominio valida all'interno della parentesi circolare.

Pertanto, se sommiamo tutti questi elementi, avremo un'espressione regolare completa che corrisponde a qualsiasi indirizzo web valido.

 www.[a-zA-Z0-9]{3,20}.(com 

Scenario 5: Utilizzare un'espressione regolare per convalidare il formato di un id di posta elettronica

Supponiamo di avere un modulo di iscrizione sulla nostra pagina web che chiede agli utenti di inserire il loro indirizzo e-mail. Per ovvie ragioni, non vogliamo che il nostro modulo proceda ulteriormente con indirizzi e-mail non validi. Per convalidare se l'indirizzo e-mail inserito dall'utente è corretto o meno, possiamo usare un'espressione regolare.

Di seguito è riportato un semplice programma per convalidare un indirizzo e-mail.

 public static void Main(string[] args) { string patternText = @"^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Uscita

Vero

Vero

Falso

Spiegazione

Un indirizzo e-mail valido contiene caratteri alfabetici, numerici e alcuni caratteri speciali come il punto (.), il trattino (-) e il trattino basso (_) seguiti dal simbolo "@", seguito dal nome del dominio e dall'estensione del dominio.

Possiamo quindi dividere l'indirizzo e-mail in quattro parti: l'identificativo dell'e-mail, il simbolo "@", il nome del dominio e l'ultima è l'estensione del dominio.

Cominciamo a scrivere un'espressione regolare per la prima parte. Può essere alfanumerica con alcuni caratteri speciali. Supponiamo di avere un'espressione di dimensioni comprese tra 5 e 25 caratteri. Analogamente a come l'abbiamo scritta in precedenza (nello scenario delle e-mail), possiamo ottenere la seguente espressione.

 ^[a-zA-Z0-9\._-]{5,25} 

Ora passiamo alla seconda parte, relativamente semplice, perché dobbiamo trovare una corrispondenza con un solo simbolo, "@". Aggiungendolo all'espressione precedente si ottiene il risultato.

 ^[a-zA-Z0-9\._-]{5,25}.@ 

Passando alla terza parte, il nome di dominio sarà sempre una serie di caratteri alfabetici minuscoli. Se volete, potete anche includere caratteri numerici o alfabetici maiuscoli, ma per questo scenario sceglieremo quelli minuscoli.

Se si aggiunge l'espressione per gli alfabeti minuscoli con lunghezza compresa tra 2 e 12 caratteri, si ottiene la seguente espressione.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12} 

Ora, ci rimane solo l'espressione per l'estensione del dominio, simile al quarto scenario, gestiremo alcune estensioni di dominio specifiche. Se volete potete aggiungerne altre racchiudendole all'interno di una parentesi circolare e separandole con un "

Consolidando questa espressione con quella precedente si ottiene il valore finale dell'espressione per la convalida delle e-mail.

 ^[a-zA-Z0-9\._-]{5,25}.@.[a-z]{2,12}.(com 

Conclusione

In questa esercitazione abbiamo appreso che cos'è l'espressione regolare e la sintassi/simboli utilizzati per indicare e costruire un'espressione regolare. L'espressione regolare consente all'utente di abbinare una stringa a un determinato modello.

Questo è molto utile in situazioni che richiedono una rapida convalida dell'input, come quando un utente inserisce il suo indirizzo e-mail o il suo numero di telefono; le regex possono essere utilizzate per convalidare rapidamente il formato e informare l'utente del problema se ha inserito un formato sbagliato.

Abbiamo anche imparato ad affrontare diversi scenari che possono essere utilizzati per una varietà di applicazioni diverse. Abbiamo esaminato il processo passo dopo passo per scrivere espressioni per abbinare parole, alfabeti, indirizzi di siti web, id di e-mail e persino tipi ed estensioni di file.

Questi scenari sono molto utili per convalidare in tempo reale gli input dell'utente senza dover scrivere numerose righe di codice, contribuendo così a risparmiare tempo e a ridurre la complessità. Questi esempi sono stati utilizzati per guidare l'utente a creare il proprio set di espressioni regolari, aiutandolo così a gestire numerosi altri scenari diversi.

Il Regex può essere semplice, come l'uso dell'alfabeto o dei numeri per abbinare una determinata serie di caratteri, oppure complesso, utilizzando una combinazione di caratteri speciali, quantificatori, classi di caratteri, ecc. per convalidare formati complessi o per cercare uno schema specifico nella serie di caratteri.

In poche parole, un'espressione regolare è uno strumento molto potente per un programmatore e aiuta a ridurre la quantità di codice necessaria per eseguire una corrispondenza di dati o un'operazione di convalida.

Scorri verso l'alto