Урок 27. Как создать robots.txt (часть 2)
Как я и говорил в предыдущей части урока, в этой статье я расскажу об ошибках индексирования, которые напрямую связаны с правилами robots.txt.
На практике, в большинстве случаев, простым созданием robots.txt не обойтись. Часто веб-мастера сталкиваются с заблокированными ресурсами сайта для роботов, что может отрицательно повлиять на индексацию, и следовательно на ранжирование. Причины этому могут быть разными. В любом случае необходимо провести дополнительную настройку правил robots.txt. Но как это сделать?
Google Webmasters
Для начала вам необходимо зарегистрироваться в системе Google Webmasters, иными словами, в Search Console. Для этого кликните по этой ссылке.
Именно от этого сервиса мы и будем отталкиваться, вплоть до проверки правил robots.txt в Яндекс.Вебмастер.
Итак, после клика по ссылке, вы попадаете на страницу входа/регистрации в Google Webmasters:
Рекомендую создать отдельную почту Gmail, и не использовать почту администратора сайта или от хостинг-аккаунта. Далее, под этой почтой выполняете вход в Google Webmasters, кликнув по кнопке «SEARCH CONSOLE»:
После этого вы попадаете на страницу добавления сайта в сервис:
Теперь нужно кликнуть по «Добавить ресурс»:
В появившемся модальном окне введите полный адрес вашего сайта с «http://(https://)» и нажмите «Добавить»:
Далее, вас перенаправит на страницу верификации права собственности на сайт:
к оглавлению ↑Верификация сайта
Рекомендую не ломать голову и верифицировать сайт посредством копирования HTML-файла в корень сайта, он же «Рекомендуемый способ». Необходимо выполнить все 4 пункта, которые указаны на предыдущем скриншоте.
Сперва скачайте HTML-файл кликнув по ссылке «этот файл подтверждения HTML». Далее, скопируйте его в корневую папку сайта. Третий пункт подразумевает проверку наличия файла в корневом каталоге. Поэтому кликните по предложенной в третьем пункте ссылке. После этого у вас должна загрузиться страница с примерным кодом, пример:
Если кода нет, то вы скопировали файл не в корневой каталог сайта. Обратите внимание, если вы пропустили третий пункт и скопировали HTML-файл не туда, то после выполнения четвёртого пункта у вас появится следующее предупреждение, пример:
Продолжаем двигаться по пунктам верификации. Далее, поставьте галку в поле «Я не робот» и кликните «ПОДТВЕРДИТЬ». После этого появится надпись об успешной верификации сайта, нажмите «Продолжить»:
Далее, вас перенаправит в ваш аккаунт «Search Console»:
Теперь, перейдите в пункт «Сканирование» — «Инструмент проверки файла robots.txt»:
По идее, Google должен сам подтянуть содержимое robots.txt. В противном случае кликните по «Отправить»:
Далее, всплывёт модальном окне, в котором напротив третьего пункта «Отправить в Google запрос на обновление», кликните ещё раз по «Отправить»:
Теперь, не закрывая модальное окно, дождитесь появления внизу надписи:
После этого, находясь в пункте «Сканирование», перейдите в меню «Посмотреть как Googlebot»:
После загрузки страницы кликните по «ПОЛУЧИТЬ И ОТОБРАЗИТЬ»:
Теперь, дождитесь окончания сканирования. После сканирования в колонке «Статус» отобразится один из результатов: «Готов» или «Частично выполнено». Если вы увидите статус «Готов», то с вашим файлом robots.txt, с точки зрения Google, всё в порядке:
к оглавлению ↑Статус «Частично выполнено»
В том случае, если результат сканирования выдаст статус «Частично выполнено», то не спешите паниковать:
Ради эксперимента, в рамках использования сложного шаблона, я решил заюзать популярный в сети robots.txt, который, к сожалению, плохо дружит с многофункциональными темами и плагинами изменяющими внешний вид сайта:
Вы можете скачать этот robots.txt тут.
Я не могу сказать что вышеприведённые настройки не годятся. К сожалению, на отдельно взятом сайте, например, моём, они заблокировали часть ресурсов, которые необходимы для полноценного отображения визуальной части для Googlebot.
Как вы уже догадались в результате сканирования этого блога, Googlebot выдал мне статус «Частично выполнено». Я решил уточнить моменты, которые не понравились Google. Для этого я кликнул по статусу «Частично выполнено»:
к оглавлению ↑Причины
Обратите внимание на вкладку «Отображение»:
В ней можно увидеть как именно видят мой сайт сканбот и посетители. Моя цель добиться, чтобы Googlebot анализировал визуально сайт как посетители. По сути, ранее упомянутый robots.txt закрыл стили некоторых плагинов. В этом можно убедиться взглянув ниже в таблицу «Роботу Google не удалось получить следующие ресурсы веб-страницы:»:
к оглавлению ↑Исправление замечаний
Как привило, проблемы с высоким уровнем (в колонке «Уровень») желательно устранить в первую очередь. Но я пойду от лёгкого к сложному, то есть снизу вверх. Сначала открою доступ к шрифтам темы. Для этого в правилах robots.txt я разрешаю доступ боту к папке «Allow: */webfonts» (без кавычек).
Для тех, кто задумался как это сделать, поясняю: я копируем из корневой папки сайта robots.txt на компьютер, открываю файл, дописываю правило. Строка должна быть размещена между Useragent и host (в случае односекционного robots.txt). По большей степени закрытый доступ к шрифтам обусловлен спецификой шаблона, и, как видите, мне не повезло, поэтому пришлось вносить изменения в robots.txt. После добавления директивы с правилом я сохраню файл robots.txt и снова загружаю его с заменой на сервер. Далее, я перехожу в «Инструмент проверки файла robots.txt» и отправляю файл на сканирование. Жду минуту, обычно файл обновляется намного быстрее, и затем повторяю процедуру в пункте «Посмотреть как Googlebot». Далее, снова изучаю ошибки. Как видим, проблемы со шрифтами ушли:
Продолжаем изучать недовольство Googlebot. Обратите внимание на блокировки скриптов js в папке «wp-includes». По сути, в 2018 году, закрывать папку «wp-includes» правилом «Disallow: /wp-» необязательно. Исходя из этого просто удалим правило «Disallow: /wp-», тем самым откроем доступ к скриптам, которые использует мой шаблон. Помимо доступа к скриптам, откроется папка «plugins» и виртуальный каталог «wp-json». Касательно индексируемой папки «plugins» — это большой плюс, а вот «wp-json» — минус. Поэтому нужно прописать правило «Disallow: /wp-json/». Теперь сохраняем файл и обновляем его на сервере.
После проверки Google-ботом видим следующую картину:
к оглавлению ↑Форс-мажор
Осталось одно замечание. Это связано с тем, что мой сайт находится в стране с политической блокировкой ресурсов Yandex. Совет: эту ошибку можно смело пропустить. Не советую прибегать к настройкам, в Яндекс.Вебмастер, по включению CDN или ua-кода отслеживания. Яндекс прекрасно видит трафик со всех стран, и блокировки для него пустое место. CDN, как и ua-код, отслеживания Яндекса не улучшают статистику, но влияет на скорость загрузки сайта. Например, ua-код увеличивает число запросов на сервер из-за редиректа. В итоге «глазами» поисковых роботов, страницы сайта загружаются дольше, хоть и незначительней. В любом случае на глаз вы точно не заметите. Но поисковики понизят сайт в ранжировании. После танца с бубном я исправил все замечания Googlebot, которые зависят от robots.txt.
к оглавлению ↑Проверка robots.txt в Яндексе
Чтобы проверить robots.txt роботом Яндекса необходимо залогиниться под почтой Яндекса в Яндекс.Вебмастер. Для этого перейдите по этой ссылке.
Далее, кликнуть по крестику для добавления вашего сайта в сервис:
В целом процедура верификации напоминает гугловскую, поэтому не вижу смысла повторяться.
После подтверждения права собственности, на главной странице Яндекс.Вебмастер появится запись вашего проекта:
Далее, кликаете по записи и система вас перенаправит на страницу сводки. Теперь вам нужно перейти в «Инструменты» — «Анализ robots.txt»:
Система должна автоматически подтянуть правила. Нас интересует блок «Результаты анализа robots.txt»:
Как видите, ошибки отсутствуют.
к оглавлению ↑В итоге
После настройки и проверки robots.txt мы получили адекватную индексацию всех необходимых элементов моего сайта. Если у вас возникнут вопросы, задавайте их в комментариях. Я постараюсь ответить всем. Спасибо за проявленный интерес к статье.
А какие правила robots.txt вы считаете обязательными и почему?
Рекомендую:
![]() |
Книга «Анонимность и безопасность в Интернете |
![]() |
Книга «Техника и философия хакерских атак» Крис Касперски |
Сергей, спасибо огромнейшее. После индексации страниц мне нарезало ошибок в Search Console. По Вашим рекомендациям и примерам я убрал все замечания. Теперь все просто отлично. Страницы индексируются как положено.
Рад что мои советы помогли. Я сам долгое время сомневался в правильном пути разрешения замечаний и устранения ошибок. По сути, роботы индексируют то, что мы разрешим в служебном файле, но не забывайте, что они могут индексировать всё что захотят, в обход инструкций. Поэтому не рекомендую хранить слишком личную информацию в каталогах сайта.
А как мне скинуть скриншот, чтобы мне подсказали что я делаю так или не так в robots.txt.
Можете просто вставить кусок кода в комментарий, обсудим.
Меня интересует что это за строка User-agent: *?
Олег, это секция с правилами для всех поисковых систем. А конкретно для Яндекса, вместо звёздочки, нужно прописать название Yandex.