Was ist Regex?
Reguläre Ausdrücke (Regex) sind Zeichenfolgen, die Suchmuster definieren. Sie sind unglaublich leistungsfähig zum Finden, Kombinieren und Manipulieren von Text.
Grundzeichen
| Muster | Beschreibung | Beispiel |
|---|
| . | Beliebiges Zeichen außer Zeilenumbruch | a.c findet "abc", "a1c" |
| \d | Beliebige Ziffer (0-9) | \d\d findet "42" |
| \D | Beliebige Nicht-Ziffer | \D+ findet "abc" |
| \w | Wortzeichen (a-z, A-Z, 0-9, _) | \w+ findet "hello_123" |
| \W | Nicht-Wortzeichen | \W findet "@", "#" |
| \s | Leerzeichen (Leerzeichen, Tab, Zeilenumbruch) | \s+ findet " " |
| \S | Nicht-Leerzeichen | \S+ findet "hello" |
Quantoren
| Muster | Beschreibung | Beispiel |
|---|
| * | 0 oder mehr | ab*c findet "ac", "abc", "abbc" |
| + | 1 oder mehr | ab+c findet "abc", "abbc" |
| ? | 0 oder 1 (optional) | colou?r findet "color", "colour" |
| {n} | Genau n-mal | \d{4} findet "2025" |
| {n,} | n-mal oder mehr | \d{2,} findet "42", "123" |
| {n,m} | Zwischen n und m-mal | \d{2,4} findet "42", "123", "2025" |
Anker
| Muster | Beschreibung | Beispiel |
|---|
| ^ | Anfang der Zeichenkette/Zeile | ^Hallo findet "Hallo Welt" |
| $ | Ende der Zeichenkette/Zeile | Welt$ findet "Hallo Welt" |
| \b | Wortgrenze | \bKatze\b findet "Katze" nicht "Raubkatze" |
| \B | Nicht-Wortgrenze | \BKatze findet "Raubkatze" |
Zeichenklassen
| Muster | Beschreibung | Beispiel |
|---|
| [abc] | Findet a, b oder c | [aeiou] findet Vokale |
| [^abc] | Findet alles außer a, b oder c | [^0-9] findet Nicht-Ziffern |
| [a-z] | Bereich: beliebiger Kleinbuchstabe | [a-zA-Z] beliebiger Buchstabe |
| [0-9] | Bereich: beliebige Ziffer | [0-9]+ findet Zahlen |
Gruppen und Alternation
| Muster | Beschreibung | Beispiel |
|---|
| (abc) | Erfassungsgruppe | (\d+)-(\d+) erfasst beide Zahlen |
| (?:abc) | Nicht-erfassende Gruppe | (?:https?://) gruppiert ohne zu erfassen |
| a|b | Alternation (oder) | Katze|Hund findet beide |
| \1 | Rückreferenz auf Gruppe 1 | (\w)\1 findet "aa", "bb" |
Häufige Muster
E-Mail-Adresse
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
URL
https?://[\w.-]+(?:/[\w./-]*)?
Telefonnummer (Deutschland)
\+?49?[-.\s]?\d{2,5}[-.\s]?\d{3,10}
Datum (JJJJ-MM-TT)
\d{4}-\d{2}-\d{2}
IP-Adresse (IPv4)
\b(?:\d{1,3}\.){3}\d{1,3}\b
IBAN (Deutschland)
DE\d{2}\s?\d{4}\s?\d{4}\s?\d{4}\s?\d{4}\s?\d{2}
Flags
| Flag | Beschreibung |
|---|
| i | Suche ohne Groß-/Kleinschreibung |
| g | Global - findet alle Vorkommen |
| m | Mehrzeilig - ^ und $ entsprechen Zeilenanfang/-ende |
| s | Dotall - . entspricht auch Zeilenumbrüchen |
Tipps für die Verwendung von Regex Data Extractor
- Beginnen Sie einfach und steigern Sie die Komplexität schrittweise
- Nutzen Sie die Vorschaufunktion, um Ihre Muster zu testen
- Maskieren Sie Sonderzeichen mit Backslash, wenn Sie sie wörtlich finden möchten
- Verwenden Sie nicht-gierige Quantoren (
*?, +?) wenn nötig - Testen Sie mit Grenzfällen, um sicherzustellen, dass Ihr Muster korrekt funktioniert
Mit Regex Data Extractor können Sie diese Muster direkt auf jede Webseite anwenden und genau die Daten extrahieren, die Sie benötigen. Viel Erfolg beim Extrahieren!