Главная / База знаний / Индексация и видимость / robots.txt блокирует важные страницы: как починить
База знаний

robots.txt блокирует важные страницы: как починить

Симптомы: страниц меньше в индексе, в Search Console ошибки доступа. Где смотреть и как править.

Индексация и видимость · 3 мин чтения

Симптом

Причина

Файл robots.txt сообщает поисковым роботам, какие разделы сайта они могут сканировать. Если в нём прописаны правила Disallow, которые охватывают нужные страницы, роботы не будут их посещать и, следовательно, не будут индексировать их. Причины могут быть следующими:

  1. Неправильный синтаксис – правило Disallow охватывает более широкий путь, чем задумано.
  2. Проблемы с регистромDisallow: /Blog/ блокирует /blog/, но не /Blog/.
  3. Общая директива User-agent: * – блокирует все роботы, включая Googlebot.
  4. Наличие Allow после Disallow – приоритет Disallow выше, если не указано Allow для конкретного пути.
  5. Кеширование – поисковый робот уже закешировал старую версию robots.txt и продолжает использовать её.

Как проверить

  1. Проверка файла robots.txt вручную
    Откройте https://example.com/robots.txt в браузере и посмотрите правила.
    txt User-agent: * Disallow: /private/ Disallow: /blog/

  2. Инструмент Google Search Console
    - Перейдите в раздел ПокрытиеПроверка URL.
    - Введите URL, который не индексируется, и посмотрите сообщение о блокировке robots.txt.

  3. Проверка через команду curl
    bash curl -I https://example.com/robots.txt Убедитесь, что сервер отдаёт файл без ошибок.

  4. Проверка правил с помощью онлайн‑валидаторов
    - Robots.txt Checker
    - SEO Site Checkup Robots.txt Validator

  5. Логи сервера
    Найдите запросы от Googlebot к нужным URL и убедитесь, что они возвращают 200, а не 403/404.

Решение

1. Уточните правила в robots.txt

2. Пересмотрите директиву User-agent

Если вы хотите разрешить только Googlebot, но заблокировать остальных:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /private/

3. Очистите кеш поисковых роботов

4. Проверьте, что файл доступен

5. Пример корректного robots.txt для типичного блога

# Разрешаем всем роботам сканировать сайт, кроме /private/ и /tmp/
User-agent: *
Disallow: /private/
Disallow: /tmp/

# Исключаем из индексации файлов с расширением .pdf
Disallow: /*.pdf$

# Разрешаем Googlebot сканировать все
User-agent: Googlebot
Disallow:

# Разрешаем Bingbot сканировать только /blog/
User-agent: Bingbot
Disallow: /
Allow: /blog/

6. Проверка после правок

  1. Сохраните файл и загрузите его в корень сайта.
  2. В Search Console в разделе Покрытие нажмите Проверить URL для страницы, которая ранее была заблокирована.
  3. Если статус меняется на “В порядке”, дождитесь, пока Google начнёт сканировать страницу.

Связанные

SEO КП · нужна помощь?

Не хотите разбираться сами?

Запустите технический аудит сайта за 5 минут — получите PDF-отчёт с разбором всех 64 параметров и конкретными точками роста. Или закажите комплексное SEO-продвижение сайта — починим всё это и возьмём на себя дальнейшую оптимизацию.

Запустить аудит за 199 ₽ Узнать про продвижение →