Урок 27. Как создать robots.txt (часть 1)

 


Думаю каждый владелец сайта рано или поздно задумывается о его продвижении. Один веб-мастер пишет неделями LSI-статьи, другой же закупает тонну ссылок, скрещивая при этом пальцы от фильтра поисковой системы. Вы должны понять одно — без правильной настройки служебного файла для роботов поисковых систем, вся внутренняя SEO-оптимизация не приведёт к увеличению естественного роста трафика. Поэтому необходимо создать robots.txt и правильно его настроить.

Эта статья актуальна для WordPress, и в ней я расскажу о том, как создать robots.txt и внести в него все необходимые правила для успешной индексации. Итак, приступим.

Что такое robots.txt

Robots.txt — это файл с инструкциями для роботов поисковых систем. В настоящее время задача создать robots.txt и настроить его в соответствии с пожеланиями не только разработчика, но и поисковых систем, является неотъемлемой частью плана по продвижению веб-ресурса. По сути, правила robots.txt запрещают и разрешают поисковикам индексировать страницы, графические файлы, стили оформления, скрипты и т.д.

Чтобы лучше понять, что же именно можно, например, запретить индексировать роботам посмотрите на схему ниже:

схема индексирования

Как видите, без запрещающих правил роботы поисковых систем индексируют административные, личные и временные файлы. По большей степени для поисковиков эти данные простой мусор. А чем меньше мусора в индексе от вашего сайта, тем лучше отношение поисковиков.

Касательно разрешающих правил, то здесь всё сложнее. По факту, сначала мы запрещаем роботам анализировать отдельные части сайта, а в случае необходимости открыть доступ поисковым паукам к вложенным данным, разрешаем. Во второй части урока вы поймёте о чём идёт речь.

Итак, в принципе, для чего нужен файл robots.txt мы разобрались. Дальше я расскажу о том, как же создать robots.txt.

к оглавлению ↑

Создание robots.txt

Первым делом необходимо зайти в папку своего проекта на компьютере, и создать простой текстовый документ с именем «robots» (без кавычек). Далее, скачайте, после скриншота, файл со следующими настройками:

правила для robots.txt

Скачать настройки для вышеприведённого robots.txt: скачать. После этого скопируйте правила в свой robots.txt.

Как видите, создать robots.txt весьма просто. А вышеприведённые правила разрабатывал я, на основании проб и ошибок. Но, возможно, ваши конечные настройки будут отличаться. Почему так? Каждый сайт индивидуален по структуре данных. Например, один веб-мастер желает скрыть некоторые страницы от индексации, другой же предпочитает поэкспериментировать. Ещё причиной может являться шаблон сайта, когда одна тема имеет свои шрифты, а другая пользуется стандартами движка. Поэтому рекомендую начать с моей версии robots.txt, который предусматривает установку плагинов изменяющих внешний вид сайта.

Итак, продолжим. После того как создали robots.txt и скопировали в него правила, необходимо изменить адрес сайта в строке «Host: site.ru» на ваш, без «http://». Далее, в строке «Sitemap:» пропишите полный адрес вашей карты сайта с «http://(https://)». Запись должна иметь аналогичную структуру что и в примере кода, который я указал выше. Напоминаю, карту сайта мы создавали в уроке «XML карта сайта для роботов поисковых систем». Теперь, сохраните файл и скопируйте его в корневую директорию сайта.

Для тех, кто забыл: корневыми каталогом сайта WordPress считается папка «WWW», внутри которой находятся папки: wp-admin, wp-content, wp-includes и другие файлы.

к оглавлению ↑

Немного о наболевшем

Подводя итоги создания robots.txt, хочу обратить ваше внимание на полемику касательно отдельной секции User-agent под каждую поисковую систему, или хотя бы под Яндекс и Google. Я рекомендую создавать не более двух секций User-agent. Как показывает практика, если в robots.txt существует больше двух User-agent, некоторые поисковые роботы (кроме Яндекс и Google) начинают игнорировать правила. И да, у каждого поисковика есть несколько роботов сканирования, например, один робот сканирует изображения, а другой текст. Я встречал robots.txt с отдельной секцией под сканбота картинок Яндекса. Откровенно говоря — это полная чушь, и так делать не нужно. Исходя из этого, если вы сомневаетесь в том, что делаете, то не экспериментируйте…

к оглавлению ↑

Паника 2018

Хорошо изучив панику веб-мастеров в 2018 году, хочу прояснить касательно введённого разработчиками WordPress начиная с версии 4.4, WP REST API. Те из вас, кто давно знаком с WordPress, наверняка при очередном обновлении движка, обратили внимание на новую функцию быстрой вставки роликов с Youtube, и не только. Разработчики WordPress даже акцентировали на этом внимание отдельной видеопрезентацией.

Я не думаю, что в следующих версиях WordPress что-то измениться касательно WP REST API. Ведь эта технология без аффинирования внедрялась в наш всеми любимый WordPress ещё в недалёком 2015 году, в качестве бета-версии. По сути, всех блогеров тревожит вопрос об истинном назначении кода oEmbed, который генерирует контроллер WP REST API.

По факту исследований обеспокоенных блогеров, страницы с кодом oEmbed, зрительно представляют собой страницу с исходным кодом, и не более того. Соглашусь, это странно, ведь робот должен анализировать код и интерпретировать его в визуальную часть страницы. Но, как на самом деле поисковики видят эти страницы никто не знает. И тот факт, что страницы с кодом oEmbed «залетают» в индекс и могут представлять потенциальную угрозу мусора в будущем, имеет место.

к оглавлению ↑

Виртуальный подкаталог «wp-json»

Мой сайт, как и многие другие, тоже содержит код oEmbed. Поэтому я советую создать robots.txt и закрыть от индексации виртуальный подкаталог «wp-json», правилом «Disallow: /wp-json/», на уровне robots.txt, но никак не в коде сайта. Дело в том, что открытый формат oEmbed упрощает вставку одной веб-страницы в другую, например, картинки и видео с другого ресурса на ваш сайт.

Поэтому вырубать эту функцию через файл function.php нет смысла, как это советуют другие веб-мастера. Никто не знает, что в дальнейшем внедрят разработчики движка на основе этой технологии. Не вижу смысла раздувать тему о контроллере дальше. Поэтому о WP REST API и открытом формате oEmbed вы можете почитать самостоятельно, погуглив или пояндексив.

На этом первая часть урока о том, как создать robots.txt подошла к концу. Во второй части я рассматриваю часто возникающие ошибки при анализе robots.txt в Search Panel. Для наглядности ситуаций, которые могут возникнуть у каждого веб-мастера, я использую другой robots.txt. В принципе, вы можете протестировать таким же образом и robots.txt предложенный выше в этой статье. Думаю вторая часть получилась ещё более интересной. Увидимся в следующей статье.

А что вы думаете об открытом формате oEmbed?


Урок 27. Как создать robots.txt (часть 2)

Делитесь полезной информацией с друзьями:

Рекомендую:

Книга «Техника и философия хакерских атак» Крис Касперски Книга «Техника и философия хакерских атак» Крис Касперски
Книга «Анонимность и безопасность в Интернете Книга «Анонимность и безопасность в Интернете

Сергей

Привет! Моё имя Сергей, и я — автор этого блога. Рад, что вас заинтересовал мой проект. Не забывайте оставлять комментарии к статьям. По всем другим вопросам обращайтесь через контактную форму на странице "Контакты".

Читайте также:

комментария 4

  1. Кирилл:

    Злостная темка.. Я так понимаю файл с инструкциями для роботов ПС — это своеобразная философия.

    • Сергей:

      Добрый вечер Кирилл. Можно и так сказать. Для меня это набор правил, конкретно под каждый сайт. И если думать, что приведенный мною образец robots.txt идеален, то философия отпадает. Но как показывает практика, у каждого сайта свой набор правил в этом файле, и вот здесь философия имеет место быть.

  2. Петр:

    Где-то я уже видел эти правила. Сергей, Вы можете помочь мне в составлении robots.txt?

    • Сергей:

      Привет, Петр! Я могу со 100% уверенностью сказать, что такого robots.txt Вы нигде не встречали. Есть аналоги, они ничуть не хуже, но я разрабатывал правила на основании своего опыта. Если есть замечания, прошу, критику я люблю. Касательно помощи связитесь со мной на странице «Контакты»

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Вверх