Как конфигурирахме Cloudflare така че скрейпърите да се блокират, а ChatGPT, Claude и Perplexity да имат свободен достъп до сайта.
Как конфигурирахме Cloudflare правила, които спират скрейпъри и подозрителни инструменти, и едновременно гарантират свободен достъп за ChatGPT, Claude, Perplexity и Google — на нашия собствен сайт и при клиентски сайтове.
ClaudeBot → HTTP/2 200 ✓
ChatGPT-User → HTTP/2 200 ✓
PerplexityBot → HTTP/2 200 ✓
Празен UA → HTTP/2 403 ✓
Python скрипт → Managed Challenge ✓
Правим го като самостоятелна услуга или като част от одит и абонаментна поддръжка.
Повечето хора мислят за Cloudflare като за нещо, което „стои пред сайта и го пази". Технически е вярно, но ако не е конфигуриран с ясна цел — прави малко или нищо по въпроса с ботовете.
Когато правим анализ на сайт или технически одит, почти винаги намираме едно и също: легитимни AI crawlers са блокирани, а скрейпъри минават свободно. Не защото някой го е настроил така умишлено — а защото никой не е довършил конфигурацията.
В началото: „Имаме Cloudflare, сайтът е защитен."
След проверка: AI crawlers получават 403. Скрейпъри — 200.
Допълнително: llms.txt файл има, robots.txt е наред — но Cloudflare блокира всичко преди да стигне до там.
На този етап проблемът не е в сайта. Проблемът е в слоя пред него.
Конфигурацията включва няколко стъпки — и редът е важен. Първо се изключват вградените Cloudflare функции, които блокират AI crawlers глобално. После се добавят правила, наредени в правилната последователност: блокиране на празни заявки, предизвикване на подозрителни инструменти, и изрично пропускане на легитимни AI ботове.
Самите правила не са сложни — но изискват да знаеш точно кое за какво отговаря, в какъв ред трябва да са и как да провериш, че работят. Грешка в реда или в условието и резултатът е противоположен на желания.
Заявки без User-Agent header — блокират се директно. Нито един легитимен браузър или бот не праща празен UA.
Инструменти за масово сваляне на съдържание получават Managed Challenge — освен ако Cloudflare ги разпознава като легитимни ботове.
GPTBot, ClaudeBot, PerplexityBot, Google-Extended — получават Skip, прескачат WAF и Bot Fight Mode напълно.
Все повече хора търсят услуги директно в ChatGPT, Claude или Perplexity. Ако сайтът е блокирал тези crawlers — просто не съществува за тях. Не се появяваш в отговорите, не се цитираш, не се препоръчваш.
Cloudflare е само една от частите. Трябват и llms.txt файл, ai-summary мета тагове, правилен robots.txt и коректни DNS настройки. Когато всичко е наредено — AI асистентите четат съдържанието и го препоръчват при конкретни въпроси.
Тази цялостна подредба проверяваме при анализ на сайта, при технически одит и при абонаментна поддръжка.
Ако искате сайтът ви да е достъпен за AI crawlers и защитен от скрейпъри:
Не. Конфигурацията работи на безплатния план на Cloudflare.
Не. Конфигурацията е направена така, че легитимните търсачки — Googlebot, Bingbot и подобни — не се засягат по никакъв начин.
От анализ на сайта. Проверяваме Cloudflare конфигурацията и даваме конкретен отговор дали AI crawlers имат достъп или не.
Конфигурацията трябва да се обновява — всеки нов crawler трябва да се добави изрично. Точно затова при абонаментна поддръжка следим тези промени редовно.
Да — с отделно правило, което не засяга останалата конфигурация. В нашия случай имаме такова правило за трафик от Сингапур, което работи независимо.
Не. Конфигурацията е насочена към автоматизирани инструменти и празни заявки — неща, които нормален браузър никога не праща. Реалните посетители не се засягат.
От анализ на сайта. Там проверяваме Cloudflare конфигурацията заедно с останалите технически параметри и даваме конкретни препоръки за какво трябва да се направи.
Тази статия е написана след реална работа по конфигурацията на ntg.bg. Правим същото при всеки сайт, с който работим — защото Cloudflare е мощен инструмент, но само когато е настроен с ясна цел.