¿Qué es Regex?
Las expresiones regulares (regex) son secuencias de caracteres que definen patrones de búsqueda. Son increíblemente poderosas para encontrar, combinar y manipular texto.
Caracteres Básicos
| Patrón | Descripción | Ejemplo |
|---|
| . | Cualquier carácter excepto nueva línea | a.c encuentra "abc", "a1c" |
| \d | Cualquier dígito (0-9) | \d\d encuentra "42" |
| \D | Cualquier no-dígito | \D+ encuentra "abc" |
| \w | Carácter de palabra (a-z, A-Z, 0-9, _) | \w+ encuentra "hello_123" |
| \W | Carácter no-palabra | \W encuentra "@", "#" |
| \s | Espacio en blanco (espacio, tab, nueva línea) | \s+ encuentra " " |
| \S | No-espacio en blanco | \S+ encuentra "hello" |
Cuantificadores
| Patrón | Descripción | Ejemplo |
|---|
| * | 0 o más | ab*c encuentra "ac", "abc", "abbc" |
| + | 1 o más | ab+c encuentra "abc", "abbc" |
| ? | 0 o 1 (opcional) | colou?r encuentra "color", "colour" |
| {n} | Exactamente n veces | \d{4} encuentra "2025" |
| {n,} | n o más veces | \d{2,} encuentra "42", "123" |
| {n,m} | Entre n y m veces | \d{2,4} encuentra "42", "123", "2025" |
Anclas
| Patrón | Descripción | Ejemplo |
|---|
| ^ | Inicio de la cadena/línea | ^Hola encuentra "Hola Mundo" |
| $ | Fin de la cadena/línea | Mundo$ encuentra "Hola Mundo" |
| \b | Límite de palabra | \bgato\b encuentra "gato" no "categoría" |
| \B | No-límite de palabra | \Bgato encuentra "categoría" |
Clases de Caracteres
| Patrón | Descripción | Ejemplo |
|---|
| [abc] | Encuentra cualquier a, b, o c | [aeiou] encuentra vocales |
| [^abc] | Encuentra cualquiera excepto a, b, o c | [^0-9] encuentra no-dígitos |
| [a-z] | Rango: cualquier letra minúscula | [a-zA-Z] cualquier letra |
| [0-9] | Rango: cualquier dígito | [0-9]+ encuentra números |
Grupos y Alternación
| Patrón | Descripción | Ejemplo |
|---|
| (abc) | Grupo de captura | (\d+)-(\d+) captura ambos números |
| (?:abc) | Grupo sin captura | (?:https?://) agrupa sin capturar |
| a|b | Alternación (o) | gato|perro encuentra cualquiera |
| \1 | Referencia al grupo 1 | (\w)\1 encuentra "aa", "bb" |
Patrones Comunes
Dirección de Email
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
URL
https?://[\w.-]+(?:/[\w./-]*)?
Número de Teléfono (España)
\+?34?[-.\s]?\d{3}[-.\s]?\d{3}[-.\s]?\d{3}
Fecha (AAAA-MM-DD)
\d{4}-\d{2}-\d{2}
Dirección IP (IPv4)
\b(?:\d{1,3}\.){3}\d{1,3}\b
DNI/NIE (España)
[XYZ]?\d{7,8}[A-Z]
Flags
| Flag | Descripción |
|---|
| i | Búsqueda sin distinción de mayúsculas/minúsculas |
| g | Global - encuentra todas las ocurrencias |
| m | Multilínea - ^ y $ corresponden a inicio/fin de línea |
| s | Dotall - . también corresponde a nuevas líneas |
Consejos para Usar Regex Data Extractor
- Empieza simple y aumenta la complejidad gradualmente
- Usa la función de vista previa para probar tus patrones
- Escapa caracteres especiales con barra invertida cuando quieras encontrarlos literalmente
- Usa cuantificadores no-codiciosos (
*?, +?) cuando sea necesario - Prueba con casos extremos para asegurar que tu patrón funciona correctamente
Con Regex Data Extractor, puedes aplicar estos patrones directamente en cualquier página web y extraer exactamente los datos que necesitas. ¡Buenas extracciones!