robots.txt блокирует важные страницы: как починить

Симптомы: страниц меньше в индексе, в Search Console ошибки доступа. Где смотреть и как править.

Симптом

В Google Search Console в разделе “Покрытие” появляются ошибки «Доступ запрещён (403)» или «Не найдено (404)» для страниц, которые вы уверены, что существуют.
Количество проиндексированных страниц в Search Console падает, а в отчётах по органическому трафику виден резкий спад.
В отчёте «Покрытие» отмечено большое число «Исключено из индексации» со статусом “Disallowed by robots.txt”.
При проверке URL через инструмент “Проверка URL” Google сообщает, что страница недоступна из‑за robots.txt.
В логах сервера видны запросы от поисковых роботов, которые получают статус 403/404, хотя файлы реально присутствуют.

Причина

Файл robots.txt сообщает поисковым роботам, какие разделы сайта они могут сканировать. Если в нём прописаны правила Disallow, которые охватывают нужные страницы, роботы не будут их посещать и, следовательно, не будут индексировать их. Причины могут быть следующими:

Неправильный синтаксис – правило Disallow охватывает более широкий путь, чем задумано.
Проблемы с регистром – Disallow: /Blog/ блокирует /blog/, но не /Blog/.
Общая директива User-agent: * – блокирует все роботы, включая Googlebot.
Наличие Allow после Disallow – приоритет Disallow выше, если не указано Allow для конкретного пути.
Кеширование – поисковый робот уже закешировал старую версию robots.txt и продолжает использовать её.

Как проверить

Проверка файла robots.txt вручную
Откройте https://example.com/robots.txt в браузере и посмотрите правила.
txt User-agent: * Disallow: /private/ Disallow: /blog/
Инструмент Google Search Console
- Перейдите в раздел Покрытие → Проверка URL.
- Введите URL, который не индексируется, и посмотрите сообщение о блокировке robots.txt.
Проверка через команду curl
bash curl -I https://example.com/robots.txt Убедитесь, что сервер отдаёт файл без ошибок.
Проверка правил с помощью онлайн‑валидаторов
- Robots.txt Checker
- SEO Site Checkup Robots.txt Validator
Логи сервера
Найдите запросы от Googlebot к нужным URL и убедитесь, что они возвращают 200, а не 403/404.

Решение

1. Уточните правила в `robots.txt`

Отключите только нужные папки
txt User-agent: * Disallow: /private/ Disallow: /tmp/
Разрешите конкретные страницы
Если нужно оставить доступ к /blog/post-123, добавьте Allow.
txt User-agent: * Disallow: /blog/ Allow: /blog/post-123/
Используйте точный путь
Если ваш сайт чувствителен к регистру, убедитесь, что путь совпадает:
txt Disallow: /Blog/ # блокирует /Blog/, но не /blog/

2. Пересмотрите директиву `User-agent`

Если вы хотите разрешить только Googlebot, но заблокировать остальных:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /private/

3. Очистите кеш поисковых роботов

В Search Console откройте Покрытие → Проверка URL → Запросить повторную индексацию.
После обновления robots.txt подождите 24–48 ч, чтобы Googlebot скачал новый файл.

4. Проверьте, что файл доступен

Убедитесь, что robots.txt находится в корне сайта (https://example.com/robots.txt).
Проверьте права доступа: chmod 644 robots.txt.
Убедитесь, что сервер не отдаёт ошибку 404/403 для этого файла.

5. Пример корректного `robots.txt` для типичного блога

# Разрешаем всем роботам сканировать сайт, кроме /private/ и /tmp/
User-agent: *
Disallow: /private/
Disallow: /tmp/

# Исключаем из индексации файлов с расширением .pdf
Disallow: /*.pdf$

# Разрешаем Googlebot сканировать все
User-agent: Googlebot
Disallow:

# Разрешаем Bingbot сканировать только /blog/
User-agent: Bingbot
Disallow: /
Allow: /blog/

6. Проверка после правок

Сохраните файл и загрузите его в корень сайта.
В Search Console в разделе Покрытие нажмите Проверить URL для страницы, которая ранее была заблокирована.
Если статус меняется на “В порядке”, дождитесь, пока Google начнёт сканировать страницу.

robots.txt блокирует важные страницы: как починить

Симптом

Причина

Как проверить

Решение

1. Уточните правила в `robots.txt`

2. Пересмотрите директиву `User-agent`

3. Очистите кеш поисковых роботов

4. Проверьте, что файл доступен

5. Пример корректного `robots.txt` для типичного блога

6. Проверка после правок

Связанные

Не хотите разбираться сами?

robots.txt блокирует важные страницы: как починить

Симптом

Причина

Как проверить

Решение

1. Уточните правила в robots.txt

2. Пересмотрите директиву User-agent

3. Очистите кеш поисковых роботов

4. Проверьте, что файл доступен

5. Пример корректного robots.txt для типичного блога

6. Проверка после правок

Связанные

Не хотите разбираться сами?

Страница не попадает в индекс

Сайт пропал из выдачи Яндекса

Сайт не индексируется в Яндексе: чек-лист причин и решений

1. Уточните правила в `robots.txt`

2. Пересмотрите директиву `User-agent`

5. Пример корректного `robots.txt` для типичного блога