Шпаргалка по Regex

Освойте регулярные выражения с помощью этого полного руководства. Изучите паттерны для поиска текста, чисел, email, URL и многого другого. Идеально для начинающих и продвинутых пользователей.

G
GUi Softworks
8 мин чтения

Что такое Regex?

Регулярные выражения (regex) — это последовательности символов, определяющие паттерны поиска. Они невероятно мощны для поиска, сопоставления и обработки текста.

Базовые символы

ПаттернОписаниеПример
Любой символ кроме новой строкиa.c находит "abc", "a1c"
\dЛюбая цифра (0-9)\d\d находит "42"
\DЛюбой не-цифра\D+ находит "abc"
\wСимвол слова (a-z, A-Z, 0-9, _)\w+ находит "hello_123"
\WНе-символ слова\W находит "@", "#"
\sПробельный символ (пробел, таб, новая строка)\s+ находит " "
\SНе-пробельный символ\S+ находит "hello"

Квантификаторы

ПаттернОписаниеПример
*0 или болееab*c находит "ac", "abc", "abbc"
+1 или болееab+c находит "abc", "abbc"
?0 или 1 (необязательно)colou?r находит "color", "colour"
{n}Ровно n раз\d{4} находит "2025"
{n,}n или более раз\d{2,} находит "42", "123"
{n,m}От n до m раз\d{2,4} находит "42", "123", "2025"

Якоря

ПаттернОписаниеПример
^Начало строки/линии^Привет находит "Привет Мир"
$Конец строки/линииМир$ находит "Привет Мир"
\bГраница слова\bкот\b находит "кот" не "котенок"
\BНе-граница слова\Bкот находит "котенок"

Классы символов

ПаттернОписаниеПример
[abc]Находит любой a, b или c[аеиоу] находит гласные
[^abc]Находит любой кроме a, b или c[^0-9] находит не-цифры
[a-z]Диапазон: любая строчная буква[a-zA-Z] любая буква
[0-9]Диапазон: любая цифра[0-9]+ находит числа

Группы и альтернация

ПаттернОписаниеПример
(abc)Группа захвата(\d+)-(\d+) захватывает оба числа
(?:abc)Группа без захвата(?:https?://) группирует без захвата
a|bАльтернация (или)кот|собака находит любое
\1Ссылка на группу 1(\w)\1 находит "aa", "bb"

Распространённые паттерны

Email адрес

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

URL

https?://[\w.-]+(?:/[\w./-]*)?

Номер телефона (Россия)

\+?7?[-.\s]?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{2}[-.\s]?\d{2}

Дата (ГГГГ-ММ-ДД)

\d{4}-\d{2}-\d{2}

IP адрес (IPv4)

\b(?:\d{1,3}\.){3}\d{1,3}\b

ИНН (Россия)

\d{10}|\d{12}

Флаги

ФлагОписание
iПоиск без учёта регистра
gГлобальный - находит все вхождения
mМногострочный - ^ и $ соответствуют началу/концу строки
sDotall - . также соответствует новым строкам

Советы по использованию Regex Data Extractor

  1. Начинайте просто и постепенно усложняйте
  2. Используйте функцию предпросмотра для тестирования паттернов
  3. Экранируйте специальные символы обратным слешем, когда хотите найти их буквально
  4. Используйте нежадные квантификаторы (*?, +?) когда необходимо
  5. Тестируйте с граничными случаями, чтобы убедиться, что паттерн работает правильно

С Regex Data Extractor вы можете применять эти паттерны непосредственно на любой веб-странице и извлекать именно те данные, которые вам нужны. Удачных извлечений!

regexшпаргалкапаттерныруководство