Пошук, зіставлення та споживання інформації — частина нашої повсякденної діяльності в інтернеті. А інтернет — величезна база даних. Коли ми гуглимо інформацію, мережа здійснює пошук у цій базі. І робить це через наші запити.
У такий же спосіб працює і пошук даних за допомогою регулярних виразів, це т. з. текстовий пошук у базі даних. Пошук за допомогою регулярних виразів задає складніші рядки пошуку (наприклад, пошук без урахування регістру, часткові збіги тощо), дозволяє знаходити та отримувати їх зі сторінок сайтів.
Іноді виникають ситуації, коли штатними функціями не вдається отримати потрібні дані, тоді й приходять на допомогу додаткові функції з використанням регулярних виразів.
У цій статті я поясню, що таке регулярні вирази, їх важливість, розглянемо спеціальні символи, процес їхнього створення та ефективне написання. Ви дізнаєтесь про загальних операторів регулярних виразів, про те, як використовувати складніші фільтри регулярних виразів для SEO, які стануть у нагоді для роботи в Google Analytics.
Всі приклади покажу на реальних сайтах, працюватимемо в Screaming Frog .
Що таке регулярні вирази?
Регулярні вирази або RegExp — це шаблон пошуку, який складається із послідовності символів. Потім ці шаблони шукаються в рядках у документах.
Регулярні вирази схожі на вбудовану мову програмування для текстового пошуку, яка дозволяє включати складні рядки пошуку, часткові збіги або знаки підставляння, пошук без урахування регістру.
RegExp складається з простих символів (одного символу чи складнішого шаблону).
Регулярні вирази виявляють, чи потрібний рядок відповідає певним вимогам (наприклад, ідентифікаційному номеру, номеру поштової скриньки або мобільного телефону). Коли ми шукаємо дані в тексті, ми можемо використовувати шаблон пошуку, і він описуватиме те, що ми шукаємо.
Таблиця з регулярними виразами та описом кожного з них:
Синтаксис | Функція |
Підстановочні знаки | |
. | Відповідає будь-якому 1 символу |
* | Збіг для 0 й більше символів |
? | Відповідає попередньому символу 0 або 1 раз |
+ | Збіг для 1 або більше символів |
| | АБО |
Групи | |
() | Для вкладення виразу |
[] | Відповідність ув’язненим символам у будь-якому порядку |
— | Відповідність будь-яким символам у вказаному діапазоні |
Якоря | |
^ | Позначення початку рядка |
$ | Позначення кінця рядка |
Екранування | |
\ | Звертайтеся до символу буквально, а не як до регулярного виразу |
Загальні функції | |
starts-with (x, y) | Перевіряє, чи починається x з y |
contains (x, y) | Перевіряє, чи містить x y |
last () | Знаходить останній предмет у наборі |
count (XPath) | Підраховує кількість випадків вилучення XPath |
Щоб скористатися витягом, описаним у стовпці «Функція», скопіюйте синтаксис зі стовпця Regex, адаптуйте вираз під свої потреби та вставте його у Screaming Frog.
Регулярний вираз отримує будь-який код з тегів