O que é Regex?
Expressões regulares (regex) são sequências de caracteres que definem padrões de busca. Elas são incrivelmente poderosas para encontrar, combinar e manipular texto.
Caracteres Básicos
| Padrão | Descrição | Exemplo |
|---|
| . | Qualquer caractere exceto nova linha | a.c encontra "abc", "a1c" |
| \d | Qualquer dígito (0-9) | \d\d encontra "42" |
| \D | Qualquer não-dígito | \D+ encontra "abc" |
| \w | Caractere de palavra (a-z, A-Z, 0-9, _) | \w+ encontra "hello_123" |
| \W | Caractere não-palavra | \W encontra "@", "#" |
| \s | Espaço em branco (espaço, tab, nova linha) | \s+ encontra " " |
| \S | Não-espaço em branco | \S+ encontra "hello" |
Quantificadores
| Padrão | Descrição | Exemplo |
|---|
| * | 0 ou mais | ab*c encontra "ac", "abc", "abbc" |
| + | 1 ou mais | ab+c encontra "abc", "abbc" |
| ? | 0 ou 1 (opcional) | colou?r encontra "color", "colour" |
| {n} | Exatamente n vezes | \d{4} encontra "2025" |
| {n,} | n ou mais vezes | \d{2,} encontra "42", "123" |
| {n,m} | Entre n e m vezes | \d{2,4} encontra "42", "123", "2025" |
Âncoras
| Padrão | Descrição | Exemplo |
|---|
| ^ | Início da string/linha | ^Olá encontra "Olá Mundo" |
| $ | Fim da string/linha | Mundo$ encontra "Olá Mundo" |
| \b | Limite de palavra | \bgato\b encontra "gato" não "categoria" |
| \B | Não-limite de palavra | \Bgato encontra "categoria" |
Classes de Caracteres
| Padrão | Descrição | Exemplo |
|---|
| [abc] | Encontra qualquer a, b, ou c | [aeiou] encontra vogais |
| [^abc] | Encontra qualquer exceto a, b, ou c | [^0-9] encontra não-dígitos |
| [a-z] | Intervalo: qualquer letra minúscula | [a-zA-Z] qualquer letra |
| [0-9] | Intervalo: qualquer dígito | [0-9]+ encontra números |
Grupos e Alternação
| Padrão | Descrição | Exemplo |
|---|
| (abc) | Grupo de captura | (\d+)-(\d+) captura ambos números |
| (?:abc) | Grupo sem captura | (?:https?://) agrupa sem capturar |
| a|b | Alternação (ou) | gato|cachorro encontra qualquer um |
| \1 | Referência ao grupo 1 | (\w)\1 encontra "aa", "bb" |
Padrões Comuns
Endereço de E-mail
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
URL
https?://[\w.-]+(?:/[\w./-]*)?
Número de Telefone (Brasil)
\(?\d{2}\)?[-.\s]?\d{4,5}[-.\s]?\d{4}
Data (AAAA-MM-DD)
\d{4}-\d{2}-\d{2}
Endereço IP (IPv4)
\b(?:\d{1,3}\.){3}\d{1,3}\b
CPF
\d{3}\.?\d{3}\.?\d{3}-?\d{2}
Flags
| Flag | Descrição |
|---|
| i | Busca sem distinção de maiúsculas/minúsculas |
| g | Global - encontra todas as ocorrências |
| m | Multilinha - ^ e $ correspondem a início/fim de linha |
| s | Dotall - . também corresponde a novas linhas |
Dicas para Usar o Regex Data Extractor
- Comece simples e aumente a complexidade gradualmente
- Use o recurso de pré-visualização para testar seus padrões
- Escape caracteres especiais com barra invertida quando quiser encontrá-los literalmente
- Use quantificadores não-gulosos (
*?, +?) quando necessário - Teste com casos extremos para garantir que seu padrão funciona corretamente
Com o Regex Data Extractor, você pode aplicar esses padrões diretamente em qualquer página web e extrair exatamente os dados que precisa. Boas extrações!