robots.txt блокирует важные страницы: как починить
Симптомы: страниц меньше в индексе, в Search Console ошибки доступа. Где смотреть и как править.
Симптом
- В Google Search Console в разделе “Покрытие” появляются ошибки «Доступ запрещён (403)» или «Не найдено (404)» для страниц, которые вы уверены, что существуют.
- Количество проиндексированных страниц в Search Console падает, а в отчётах по органическому трафику виден резкий спад.
- В отчёте «Покрытие» отмечено большое число «Исключено из индексации» со статусом “Disallowed by robots.txt”.
- При проверке URL через инструмент “Проверка URL” Google сообщает, что страница недоступна из‑за robots.txt.
- В логах сервера видны запросы от поисковых роботов, которые получают статус 403/404, хотя файлы реально присутствуют.
Причина
Файл robots.txt сообщает поисковым роботам, какие разделы сайта они могут сканировать. Если в нём прописаны правила Disallow, которые охватывают нужные страницы, роботы не будут их посещать и, следовательно, не будут индексировать их. Причины могут быть следующими:
- Неправильный синтаксис – правило
Disallowохватывает более широкий путь, чем задумано. - Проблемы с регистром –
Disallow: /Blog/блокирует/blog/, но не/Blog/. - Общая директива
User-agent: *– блокирует все роботы, включая Googlebot. - Наличие
AllowпослеDisallow– приоритетDisallowвыше, если не указаноAllowдля конкретного пути. - Кеширование – поисковый робот уже закешировал старую версию
robots.txtи продолжает использовать её.
Как проверить
-
Проверка файла
robots.txtвручную
Откройтеhttps://example.com/robots.txtв браузере и посмотрите правила.
txt User-agent: * Disallow: /private/ Disallow: /blog/ -
Инструмент Google Search Console
- Перейдите в раздел Покрытие → Проверка URL.
- Введите URL, который не индексируется, и посмотрите сообщение о блокировке robots.txt. -
Проверка через команду
curl
bash curl -I https://example.com/robots.txtУбедитесь, что сервер отдаёт файл без ошибок. -
Проверка правил с помощью онлайн‑валидаторов
- Robots.txt Checker
- SEO Site Checkup Robots.txt Validator -
Логи сервера
Найдите запросы отGooglebotк нужным URL и убедитесь, что они возвращают 200, а не 403/404.
Решение
1. Уточните правила в robots.txt
-
Отключите только нужные папки
txt User-agent: * Disallow: /private/ Disallow: /tmp/ -
Разрешите конкретные страницы
Если нужно оставить доступ к/blog/post-123, добавьтеAllow.
txt User-agent: * Disallow: /blog/ Allow: /blog/post-123/ -
Используйте точный путь
Если ваш сайт чувствителен к регистру, убедитесь, что путь совпадает:
txt Disallow: /Blog/ # блокирует /Blog/, но не /blog/
2. Пересмотрите директиву User-agent
Если вы хотите разрешить только Googlebot, но заблокировать остальных:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /private/
3. Очистите кеш поисковых роботов
- В Search Console откройте Покрытие → Проверка URL → Запросить повторную индексацию.
- После обновления
robots.txtподождите 24–48 ч, чтобы Googlebot скачал новый файл.
4. Проверьте, что файл доступен
- Убедитесь, что
robots.txtнаходится в корне сайта (https://example.com/robots.txt). - Проверьте права доступа:
chmod 644 robots.txt. - Убедитесь, что сервер не отдаёт ошибку 404/403 для этого файла.
5. Пример корректного robots.txt для типичного блога
# Разрешаем всем роботам сканировать сайт, кроме /private/ и /tmp/
User-agent: *
Disallow: /private/
Disallow: /tmp/
# Исключаем из индексации файлов с расширением .pdf
Disallow: /*.pdf$
# Разрешаем Googlebot сканировать все
User-agent: Googlebot
Disallow:
# Разрешаем Bingbot сканировать только /blog/
User-agent: Bingbot
Disallow: /
Allow: /blog/
6. Проверка после правок
- Сохраните файл и загрузите его в корень сайта.
- В Search Console в разделе Покрытие нажмите Проверить URL для страницы, которая ранее была заблокирована.
- Если статус меняется на “В порядке”, дождитесь, пока Google начнёт сканировать страницу.
Связанные
Не хотите разбираться сами?
Запустите технический аудит сайта за 5 минут — получите PDF-отчёт с разбором всех 64 параметров и конкретными точками роста. Или закажите комплексное SEO-продвижение сайта — починим всё это и возьмём на себя дальнейшую оптимизацию.