NETWORK TECHNOLOGY
Комплексни ИТ решения, поддръжка, сигурност и автоматизация за Вашия бизнес
Техническа поддръжка: 24/7
+359 2 958 6535

Cloudflare Security Rules — как блокирахме лошите ботове и пуснахме AI crawlers

Как конфигурирахме Cloudflare така че скрейпърите да се блокират, а ChatGPT, Claude и Perplexity да имат свободен достъп до сайта.

Cloudflare Security Rules — как блокирахме лошите ботове и пуснахме AI crawlers

Как конфигурирахме Cloudflare правила, които спират скрейпъри и подозрителни инструменти, и едновременно гарантират свободен достъп за ChatGPT, Claude, Perplexity и Google — на нашия собствен сайт и при клиентски сайтове.

Реалният резултат от ntg.bg след конфигурацията:
ClaudeBot     → HTTP/2 200 ✓
ChatGPT-User  → HTTP/2 200 ✓
PerplexityBot → HTTP/2 200 ✓
Празен UA     → HTTP/2 403 ✓
Python скрипт → Managed Challenge ✓
200 за AI crawlers. 403 за празен User-Agent. Точно това искахме.
Искате същото за вашия сайт?

Правим го като самостоятелна услуга или като част от одит и абонаментна поддръжка.

Проблемът, който виждаме постоянно

Повечето хора мислят за Cloudflare като за нещо, което „стои пред сайта и го пази". Технически е вярно, но ако не е конфигуриран с ясна цел — прави малко или нищо по въпроса с ботовете.

Когато правим анализ на сайт или технически одит, почти винаги намираме едно и също: легитимни AI crawlers са блокирани, а скрейпъри минават свободно. Не защото някой го е настроил така умишлено — а защото никой не е довършил конфигурацията.

🤖
AI crawlers блокирани
ChatGPT, Claude, Perplexity получават 403 — не могат да четат сайта и не го препоръчват
🕷️
Скрейпъри минават свободно
Автоматизирани инструменти за масово сваляне на съдържание — без никаква проверка
🌀
Вградени блокери включени
„Block AI training bots" и „AI Labyrinth" — функции, които активно пречат на ботовете, които искаш да пуснеш
Типичната ситуация при одит:

В началото: „Имаме Cloudflare, сайтът е защитен."

След проверка: AI crawlers получават 403. Скрейпъри — 200.

Допълнително: llms.txt файл има, robots.txt е наред — но Cloudflare блокира всичко преди да стигне до там.

На този етап проблемът не е в сайта. Проблемът е в слоя пред него.

Какво НЕ е правилна Cloudflare конфигурация
  • Не е просто активиране на Cloudflare.
  • Не е оставяне на всички настройки по подразбиране.
  • Не е блокиране на AI crawlers и едновременно очакване да се появяваш в ChatGPT.
  • Не е включен AI Labyrinth и llms.txt едновременно — двете си противоречат.
  • Не е конфигурация без проверка с реални заявки след това.

Как го оправяме

Конфигурацията включва няколко стъпки — и редът е важен. Първо се изключват вградените Cloudflare функции, които блокират AI crawlers глобално. После се добавят правила, наредени в правилната последователност: блокиране на празни заявки, предизвикване на подозрителни инструменти, и изрично пропускане на легитимни AI ботове.

Самите правила не са сложни — но изискват да знаеш точно кое за какво отговаря, в какъв ред трябва да са и как да провериш, че работят. Грешка в реда или в условието и резултатът е противоположен на желания.

1 Блокиране

Заявки без User-Agent header — блокират се директно. Нито един легитимен браузър или бот не праща празен UA.

2 Предизвикване

Инструменти за масово сваляне на съдържание получават Managed Challenge — освен ако Cloudflare ги разпознава като легитимни ботове.

3 Пропускане

GPTBot, ClaudeBot, PerplexityBot, Google-Extended — получават Skip, прескачат WAF и Bot Fight Mode напълно.

Резултатът след конфигурацията: AI crawlers четат сайта свободно. Скрейпъри и автоматизирани инструменти — не. Googlebot и легитимните търсачки не се засягат.
Всичко се проверява с реални заявки след деплоя — не приемаме „изглежда работи".

Защо AI видимостта има значение вече

Все повече хора търсят услуги директно в ChatGPT, Claude или Perplexity. Ако сайтът е блокирал тези crawlers — просто не съществува за тях. Не се появяваш в отговорите, не се цитираш, не се препоръчваш.

Cloudflare е само една от частите. Трябват и llms.txt файл, ai-summary мета тагове, правилен robots.txt и коректни DNS настройки. Когато всичко е наредено — AI асистентите четат съдържанието и го препоръчват при конкретни въпроси.

Тази цялостна подредба проверяваме при анализ на сайта, при технически одит и при абонаментна поддръжка.

Пълната AI видимост включва:
  • Cloudflare Security Rules
  • llms.txt и llms.md файлове
  • ai-summary мета тагове
  • robots.txt с AI ботове
  • Бърз сайт и DNS
  • Проверка с реални заявки

Какво реално можем да направим за вас

Cloudflare одит и конфигурация

  • Проверка на текущите Security настройки.
  • Идентифициране на блокирани AI crawlers и пропуснати скрейпъри.
  • Правилна конфигурация в правилния ред.
  • Изключване на AI Labyrinth и Block AI training bots ако пречат.
  • Проверка с реални заявки след деплоя.

Като част от по-голяма услуга

Ако искате сайтът ви да е достъпен за AI crawlers и защитен от скрейпъри:

Въпроси и отговори

Трябва ли платен план в Cloudflare за тази конфигурация

Не. Конфигурацията работи на безплатния план на Cloudflare.

Ще се засегне ли Googlebot

Не. Конфигурацията е направена така, че легитимните търсачки — Googlebot, Bingbot и подобни — не се засягат по никакъв начин.

Как да разбера дали AI crawlers са блокирани в момента

От анализ на сайта. Проверяваме Cloudflare конфигурацията и даваме конкретен отговор дали AI crawlers имат достъп или не.

Какво се случва когато се появи нов AI бот

Конфигурацията трябва да се обновява — всеки нов crawler трябва да се добави изрично. Точно затова при абонаментна поддръжка следим тези промени редовно.

Може ли да се блокира трафик от определена държава

Да — с отделно правило, което не засяга останалата конфигурация. В нашия случай имаме такова правило за трафик от Сингапур, което работи независимо.

Има ли риск да блокираме легитимни потребители

Не. Конфигурацията е насочена към автоматизирани инструменти и празни заявки — неща, които нормален браузър никога не праща. Реалните посетители не се засягат.

Откъде да започна ако не знам какво е настроено

От анализ на сайта. Там проверяваме Cloudflare конфигурацията заедно с останалите технически параметри и даваме конкретни препоръки за какво трябва да се направи.

Тази статия е написана след реална работа по конфигурацията на ntg.bg. Правим същото при всеки сайт, с който работим — защото Cloudflare е мощен инструмент, но само когато е настроен с ясна цел.


Снимка на автора
Автор

инж. Свилен Арсов

Ръководител ИТ инфраструктура и сигурност в Network Technology.

Коментари

Зареждане…
Само регистрирани и влезли потребители могат да коментират.