Qu'est-ce que Regex ?
Les expressions régulières (regex) sont des séquences de caractères qui définissent des patterns de recherche. Elles sont incroyablement puissantes pour trouver, combiner et manipuler du texte.
Caractères de Base
| Pattern | Description | Exemple |
|---|
| . | N'importe quel caractère sauf nouvelle ligne | a.c trouve "abc", "a1c" |
| \d | N'importe quel chiffre (0-9) | \d\d trouve "42" |
| \D | N'importe quel non-chiffre | \D+ trouve "abc" |
| \w | Caractère de mot (a-z, A-Z, 0-9, _) | \w+ trouve "hello_123" |
| \W | Caractère non-mot | \W trouve "@", "#" |
| \s | Espace blanc (espace, tab, nouvelle ligne) | \s+ trouve " " |
| \S | Non-espace blanc | \S+ trouve "hello" |
Quantificateurs
| Pattern | Description | Exemple |
|---|
| * | 0 ou plus | ab*c trouve "ac", "abc", "abbc" |
| + | 1 ou plus | ab+c trouve "abc", "abbc" |
| ? | 0 ou 1 (optionnel) | colou?r trouve "color", "colour" |
| {n} | Exactement n fois | \d{4} trouve "2025" |
| {n,} | n fois ou plus | \d{2,} trouve "42", "123" |
| {n,m} | Entre n et m fois | \d{2,4} trouve "42", "123", "2025" |
Ancres
| Pattern | Description | Exemple |
|---|
| ^ | Début de chaîne/ligne | ^Bonjour trouve "Bonjour Monde" |
| $ | Fin de chaîne/ligne | Monde$ trouve "Bonjour Monde" |
| \b | Limite de mot | \bchat\b trouve "chat" pas "achat" |
| \B | Non-limite de mot | \Bchat trouve "achat" |
Classes de Caractères
| Pattern | Description | Exemple |
|---|
| [abc] | Trouve n'importe quel a, b, ou c | [aeiou] trouve voyelles |
| [^abc] | Trouve tout sauf a, b, ou c | [^0-9] trouve non-chiffres |
| [a-z] | Intervalle : toute lettre minuscule | [a-zA-Z] toute lettre |
| [0-9] | Intervalle : tout chiffre | [0-9]+ trouve nombres |
Groupes et Alternance
| Pattern | Description | Exemple |
|---|
| (abc) | Groupe de capture | (\d+)-(\d+) capture les deux nombres |
| (?:abc) | Groupe sans capture | (?:https?://) groupe sans capturer |
| a|b | Alternance (ou) | chat|chien trouve l'un ou l'autre |
| \1 | Référence au groupe 1 | (\w)\1 trouve "aa", "bb" |
Patterns Courants
Adresse Email
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
URL
https?://[\w.-]+(?:/[\w./-]*)?
Numéro de Téléphone (France)
(?:0|\+33)[1-9](?:[-.\s]?\d{2}){4}
Date (AAAA-MM-JJ)
\d{4}-\d{2}-\d{2}
Adresse IP (IPv4)
\b(?:\d{1,3}\.){3}\d{1,3}\b
Numéro de Sécurité Sociale
[12]\d{2}(?:0[1-9]|1[0-2])\d{8}
Flags
| Flag | Description |
|---|
| i | Recherche insensible à la casse |
| g | Global - trouve toutes les occurrences |
| m | Multiligne - ^ et $ correspondent au début/fin de ligne |
| s | Dotall - . correspond aussi aux nouvelles lignes |
Conseils pour Utiliser Regex Data Extractor
- Commencez simple et augmentez la complexité progressivement
- Utilisez la fonction d'aperçu pour tester vos patterns
- Échappez les caractères spéciaux avec antislash quand vous voulez les trouver littéralement
- Utilisez les quantificateurs non-gourmands (
*?, +?) quand nécessaire - Testez avec des cas limites pour vous assurer que votre pattern fonctionne correctement
Avec Regex Data Extractor, vous pouvez appliquer ces patterns directement sur n'importe quelle page web et extraire exactement les données dont vous avez besoin. Bonnes extractions !