Урок 27. Как создать robots.txt (часть 2)

 


Как я и говорил в предыдущей части урока, в этой статье я расскажу об ошибках индексирования, которые напрямую связаны с правилами robots.txt.

На практике, в большинстве случаев, простым созданием robots.txt не обойтись. Часто веб-мастера сталкиваются с заблокированными ресурсами сайта для роботов, что может отрицательно повлиять на индексацию, и следовательно на ранжирование. Причины этому могут быть разными. В любом случае необходимо провести дополнительную настройку правил robots.txt. Но как это сделать?

Google Webmasters

Для начала вам необходимо зарегистрироваться в системе Google Webmasters, иными словами, в Search Console. Для этого кликните по этой ссылке.

Именно от этого сервиса мы и будем отталкиваться, вплоть до проверки правил robots.txt в Яндекс.Вебмастер.

Итак, после клика по ссылке, вы попадаете на страницу входа/регистрации в Google Webmasters:

google webmasters search console

Рекомендую создать отдельную почту Gmail, и не использовать почту администратора сайта или от хостинг-аккаунта. Далее, под этой почтой выполняете вход в Google Webmasters, кликнув по кнопке «SEARCH CONSOLE»:

search console

После этого вы попадаете на страницу добавления сайта в сервис:

аккаунт search console

Теперь нужно кликнуть по «Добавить ресурс»:

добавить ресурс google webmasters

В появившемся модальном окне введите полный адрес вашего сайта с «http://(https://)» и нажмите «Добавить»:

добавить ресурс search console

Далее, вас перенаправит на страницу верификации права собственности на сайт:

верификация сайта

к оглавлению ↑

Верификация сайта

Рекомендую не ломать голову и верифицировать сайт посредством копирования HTML-файла в корень сайта, он же «Рекомендуемый способ». Необходимо выполнить все 4 пункта, которые указаны на предыдущем скриншоте.

Сперва скачайте HTML-файл кликнув по ссылке «этот файл подтверждения HTML». Далее, скопируйте его в корневую папку сайта. Третий пункт подразумевает проверку наличия файла в корневом каталоге. Поэтому кликните по предложенной в третьем пункте ссылке. После этого у вас должна загрузиться страница с примерным кодом, пример:

код верификации search panel

Если кода нет, то вы скопировали файл не в корневой каталог сайта. Обратите внимание, если вы пропустили третий пункт и скопировали HTML-файл не туда, то после выполнения четвёртого пункта у вас появится следующее предупреждение, пример:

ошибка верификации

Продолжаем двигаться по пунктам верификации. Далее, поставьте галку в поле «Я не робот» и кликните «ПОДТВЕРДИТЬ». После этого появится надпись об успешной верификации сайта, нажмите «Продолжить»:

успешная верификация

Далее, вас перенаправит в ваш аккаунт «Search Console»:

аккаунт search console

Теперь, перейдите в пункт «Сканирование» — «Инструмент проверки файла robots.txt»:

инструмент проверки robots.txt

По идее, Google должен сам подтянуть содержимое robots.txt. В противном случае кликните по «Отправить»:

отправить robots.txt

Далее, всплывёт модальном окне, в котором напротив третьего пункта «Отправить в Google запрос на обновление», кликните ещё раз по «Отправить»:

модальное окно search panel

Теперь, не закрывая модальное окно, дождитесь появления внизу надписи:

модальное окно отправка

После этого, находясь в пункте «Сканирование», перейдите в меню «Посмотреть как Googlebot»:

посмотреть как googlebot

После загрузки страницы кликните по «ПОЛУЧИТЬ И ОТОБРАЗИТЬ»:

получить и отобразить

Теперь, дождитесь окончания сканирования. После сканирования в колонке «Статус» отобразится один из результатов: «Готов» или «Частично выполнено». Если вы увидите статус «Готов», то с вашим файлом robots.txt, с точки зрения Google, всё в порядке:

готов

к оглавлению ↑

Статус «Частично выполнено»

В том случае, если результат сканирования выдаст статус «Частично выполнено», то не спешите паниковать:

частично выполнено

Ради эксперимента, в рамках использования сложного шаблона, я решил заюзать популярный в сети robots.txt, который, к сожалению, плохо дружит с многофункциональными темами и плагинами изменяющими внешний вид сайта:

robots.txt вторая часть

Вы можете скачать этот robots.txt тут.

Я не могу сказать что вышеприведённые настройки не годятся. К сожалению, на отдельно взятом сайте, например, моём, они заблокировали часть ресурсов, которые необходимы для полноценного отображения визуальной части для Googlebot.

Как вы уже догадались в результате сканирования этого блога, Googlebot выдал мне статус «Частично выполнено». Я решил уточнить моменты, которые не понравились Google. Для этого я кликнул по статусу «Частично выполнено»:

частично выполнено нажать

к оглавлению ↑

Причины

Обратите внимание на вкладку «Отображение»:

посмотреть как гугл бот

В ней можно увидеть как именно видят мой сайт сканбот и посетители. Моя цель добиться, чтобы Googlebot анализировал визуально сайт как посетители. По сути, ранее упомянутый robots.txt закрыл стили некоторых плагинов. В этом можно убедиться взглянув ниже в таблицу «Роботу Google не удалось получить следующие ресурсы веб-страницы:»:

robots.txt индексация ошибка

к оглавлению ↑

Исправление замечаний

Как привило, проблемы с высоким уровнем (в колонке «Уровень») желательно устранить в первую очередь. Но я пойду от лёгкого к сложному, то есть снизу вверх. Сначала открою доступ к шрифтам темы. Для этого в правилах robots.txt я разрешаю доступ боту к папке «Allow: */webfonts» (без кавычек).

Для тех, кто задумался как это сделать, поясняю: я копируем из корневой папки сайта robots.txt на компьютер, открываю файл, дописываю правило. Строка должна быть размещена между Useragent и host (в случае односекционного robots.txt). По большей степени закрытый доступ к шрифтам обусловлен спецификой шаблона, и, как видите, мне не повезло, поэтому пришлось вносить изменения в robots.txt. После добавления директивы с правилом я сохраню файл robots.txt и снова загружаю его с заменой на сервер. Далее, я перехожу в «Инструмент проверки файла robots.txt» и отправляю файл на сканирование. Жду минуту, обычно файл обновляется намного быстрее, и затем повторяю процедуру в пункте «Посмотреть как Googlebot». Далее, снова изучаю ошибки. Как видим, проблемы со шрифтами ушли:

robots.txt индексация ошибки

Продолжаем изучать недовольство Googlebot. Обратите внимание на блокировки скриптов js в папке «wp-includes». По сути, в 2018 году, закрывать папку «wp-includes» правилом «Disallow: /wp-» необязательно. Исходя из этого просто удалим правило «Disallow: /wp-», тем самым откроем доступ к скриптам, которые использует мой шаблон. Помимо доступа к скриптам, откроется папка «plugins» и виртуальный каталог «wp-json». Касательно индексируемой папки «plugins» — это большой плюс, а вот «wp-json» — минус. Поэтому нужно прописать правило «Disallow: /wp-json/». Теперь сохраняем файл и обновляем его на сервере.

После проверки Google-ботом видим следующую картину:

robots.txt замечание

к оглавлению ↑

Форс-мажор

Осталось одно замечание. Это связано с тем, что мой сайт находится в стране с политической блокировкой ресурсов Yandex. Совет: эту ошибку можно смело пропустить. Не советую прибегать к настройкам, в Яндекс.Вебмастер, по включению CDN или ua-кода отслеживания. Яндекс прекрасно видит трафик со всех стран, и блокировки для него пустое место. CDN, как и ua-код, отслеживания Яндекса не улучшают статистику, но влияет на скорость загрузки сайта. Например, ua-код увеличивает число запросов на сервер из-за редиректа. В итоге «глазами» поисковых роботов, страницы сайта загружаются дольше, хоть и незначительней. В любом случае на глаз вы точно не заметите. Но поисковики понизят сайт в ранжировании. После танца с бубном я исправил все замечания Googlebot, которые зависят от robots.txt.

к оглавлению ↑

Проверка robots.txt в Яндексе

Чтобы проверить robots.txt роботом Яндекса необходимо залогиниться под почтой Яндекса в Яндекс.Вебмастер. Для этого перейдите по этой ссылке.

Далее, кликнуть по крестику для добавления вашего сайта в сервис:

яндекс.вебмастер добавить сайт

В целом процедура верификации напоминает гугловскую, поэтому не вижу смысла повторяться.

После подтверждения права собственности, на главной странице Яндекс.Вебмастер появится запись вашего проекта:

яндекс.вебмастер сайт

Далее, кликаете по записи и система вас перенаправит на страницу сводки. Теперь вам нужно перейти в «Инструменты» — «Анализ robots.txt»:

яндекс.вебмастер robots.txt

Система должна автоматически подтянуть правила. Нас интересует блок «Результаты анализа robots.txt»:

яндекс-вебмастер robots.txt анализ

Как видите, ошибки отсутствуют.

к оглавлению ↑

В итоге

После настройки и проверки robots.txt мы получили адекватную индексацию всех необходимых элементов моего сайта. Если у вас возникнут вопросы, задавайте их в комментариях. Я постараюсь ответить всем. Спасибо за проявленный интерес к статье.

А какие правила robots.txt вы считаете обязательными и почему?


Урок 27. Как создать robots.txt (часть 1)

Делитесь полезной информацией с друзьями:

Рекомендую:

Книга «Анонимность и безопасность в Интернете Книга «Анонимность и безопасность в Интернете
Книга «Техника и философия хакерских атак» Крис Касперски Книга «Техника и философия хакерских атак» Крис Касперски

Сергей

Привет! Моё имя Сергей, и я — автор этого блога. Рад, что вас заинтересовал мой проект. Не забывайте оставлять комментарии к статьям. По всем другим вопросам обращайтесь через контактную форму на странице "Контакты".

Читайте также:

комментариев 6

  1. Кирилл:

    Сергей, спасибо огромнейшее. После индексации страниц мне нарезало ошибок в Search Console. По Вашим рекомендациям и примерам я убрал все замечания. Теперь все просто отлично. Страницы индексируются как положено.

    • Сергей:

      Рад что мои советы помогли. Я сам долгое время сомневался в правильном пути разрешения замечаний и устранения ошибок. По сути, роботы индексируют то, что мы разрешим в служебном файле, но не забывайте, что они могут индексировать всё что захотят, в обход инструкций. Поэтому не рекомендую хранить слишком личную информацию в каталогах сайта.

  2. Олег:

    А как мне скинуть скриншот, чтобы мне подсказали что я делаю так или не так в robots.txt.

    • Сергей:

      Можете просто вставить кусок кода в комментарий, обсудим.

      • Олег:

        Меня интересует что это за строка User-agent: *?

        • Сергей:

          Олег, это секция с правилами для всех поисковых систем. А конкретно для Яндекса, вместо звёздочки, нужно прописать название Yandex.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


4 + 3 =


Вверх