Урок 27. Как создать robots.txt (часть 1)
Думаю каждый владелец сайта рано или поздно задумывается о его продвижении. Один веб-мастер пишет неделями LSI-статьи, другой же закупает тонну ссылок, скрещивая при этом пальцы от фильтра поисковой системы. Вы должны понять одно — без правильной настройки служебного файла для роботов поисковых систем, вся внутренняя SEO-оптимизация не приведёт к увеличению естественного роста трафика. Поэтому необходимо создать robots.txt и правильно его настроить.
Эта статья актуальна для WordPress, и в ней я расскажу о том, как создать robots.txt и внести в него все необходимые правила для успешной индексации. Итак, приступим.
Что такое robots.txt
Robots.txt — это файл с инструкциями для роботов поисковых систем. В настоящее время задача создать robots.txt и настроить его в соответствии с пожеланиями не только разработчика, но и поисковых систем, является неотъемлемой частью плана по продвижению веб-ресурса. По сути, правила robots.txt запрещают и разрешают поисковикам индексировать страницы, графические файлы, стили оформления, скрипты и т.д.
Чтобы лучше понять, что же именно можно, например, запретить индексировать роботам посмотрите на схему ниже:
Как видите, без запрещающих правил роботы поисковых систем индексируют административные, личные и временные файлы. По большей степени для поисковиков эти данные простой мусор. А чем меньше мусора в индексе от вашего сайта, тем лучше отношение поисковиков.
Касательно разрешающих правил, то здесь всё сложнее. По факту, сначала мы запрещаем роботам анализировать отдельные части сайта, а в случае необходимости открыть доступ поисковым паукам к вложенным данным, разрешаем. Во второй части урока вы поймёте о чём идёт речь.
Итак, в принципе, для чего нужен файл robots.txt мы разобрались. Дальше я расскажу о том, как же создать robots.txt.
к оглавлению ↑Создание robots.txt
Первым делом необходимо зайти в папку своего проекта на компьютере, и создать простой текстовый документ с именем «robots» (без кавычек). Далее, скачайте, после скриншота, файл со следующими настройками:
Скачать настройки для вышеприведённого robots.txt: скачать. После этого скопируйте правила в свой robots.txt.
Как видите, создать robots.txt весьма просто. А вышеприведённые правила разрабатывал я, на основании проб и ошибок. Но, возможно, ваши конечные настройки будут отличаться. Почему так? Каждый сайт индивидуален по структуре данных. Например, один веб-мастер желает скрыть некоторые страницы от индексации, другой же предпочитает поэкспериментировать. Ещё причиной может являться шаблон сайта, когда одна тема имеет свои шрифты, а другая пользуется стандартами движка. Поэтому рекомендую начать с моей версии robots.txt, который предусматривает установку плагинов изменяющих внешний вид сайта.
Итак, продолжим. После того как создали robots.txt и скопировали в него правила, необходимо изменить адрес сайта в строке «Host: site.ru» на ваш, без «http://». Далее, в строке «Sitemap:» пропишите полный адрес вашей карты сайта с «http://(https://)». Запись должна иметь аналогичную структуру что и в примере кода, который я указал выше. Напоминаю, карту сайта мы создавали в уроке «XML карта сайта для роботов поисковых систем». Теперь, сохраните файл и скопируйте его в корневую директорию сайта.
к оглавлению ↑Для тех, кто забыл: корневыми каталогом сайта WordPress считается папка «WWW», внутри которой находятся папки: wp-admin, wp-content, wp-includes и другие файлы.
Немного о наболевшем
Подводя итоги создания robots.txt, хочу обратить ваше внимание на полемику касательно отдельной секции User-agent под каждую поисковую систему, или хотя бы под Яндекс и Google. Я рекомендую создавать не более двух секций User-agent. Как показывает практика, если в robots.txt существует больше двух User-agent, некоторые поисковые роботы (кроме Яндекс и Google) начинают игнорировать правила. И да, у каждого поисковика есть несколько роботов сканирования, например, один робот сканирует изображения, а другой текст. Я встречал robots.txt с отдельной секцией под сканбота картинок Яндекса. Откровенно говоря — это полная чушь, и так делать не нужно. Исходя из этого, если вы сомневаетесь в том, что делаете, то не экспериментируйте…
к оглавлению ↑Паника 2018
Хорошо изучив панику веб-мастеров в 2018 году, хочу прояснить касательно введённого разработчиками WordPress начиная с версии 4.4, WP REST API. Те из вас, кто давно знаком с WordPress, наверняка при очередном обновлении движка, обратили внимание на новую функцию быстрой вставки роликов с Youtube, и не только. Разработчики WordPress даже акцентировали на этом внимание отдельной видеопрезентацией.
Я не думаю, что в следующих версиях WordPress что-то измениться касательно WP REST API. Ведь эта технология без аффинирования внедрялась в наш всеми любимый WordPress ещё в недалёком 2015 году, в качестве бета-версии. По сути, всех блогеров тревожит вопрос об истинном назначении кода oEmbed, который генерирует контроллер WP REST API.
По факту исследований обеспокоенных блогеров, страницы с кодом oEmbed, зрительно представляют собой страницу с исходным кодом, и не более того. Соглашусь, это странно, ведь робот должен анализировать код и интерпретировать его в визуальную часть страницы. Но, как на самом деле поисковики видят эти страницы никто не знает. И тот факт, что страницы с кодом oEmbed «залетают» в индекс и могут представлять потенциальную угрозу мусора в будущем, имеет место.
к оглавлению ↑Виртуальный подкаталог «wp-json»
Мой сайт, как и многие другие, тоже содержит код oEmbed. Поэтому я советую создать robots.txt и закрыть от индексации виртуальный подкаталог «wp-json», правилом «Disallow: /wp-json/», на уровне robots.txt, но никак не в коде сайта. Дело в том, что открытый формат oEmbed упрощает вставку одной веб-страницы в другую, например, картинки и видео с другого ресурса на ваш сайт.
Поэтому вырубать эту функцию через файл function.php нет смысла, как это советуют другие веб-мастера. Никто не знает, что в дальнейшем внедрят разработчики движка на основе этой технологии. Не вижу смысла раздувать тему о контроллере дальше. Поэтому о WP REST API и открытом формате oEmbed вы можете почитать самостоятельно, погуглив или пояндексив.
На этом первая часть урока о том, как создать robots.txt подошла к концу. Во второй части я рассматриваю часто возникающие ошибки при анализе robots.txt в Search Panel. Для наглядности ситуаций, которые могут возникнуть у каждого веб-мастера, я использую другой robots.txt. В принципе, вы можете протестировать таким же образом и robots.txt предложенный выше в этой статье. Думаю вторая часть получилась ещё более интересной. Увидимся в следующей статье.
А что вы думаете об открытом формате oEmbed?
Рекомендую:
![]() |
Книга «Техника и философия хакерских атак» Крис Касперски |
![]() |
Книга «Анонимность и безопасность в Интернете |
Злостная темка.. Я так понимаю файл с инструкциями для роботов ПС — это своеобразная философия.
Добрый вечер Кирилл. Можно и так сказать. Для меня это набор правил, конкретно под каждый сайт. И если думать, что приведенный мною образец robots.txt идеален, то философия отпадает. Но как показывает практика, у каждого сайта свой набор правил в этом файле, и вот здесь философия имеет место быть.
Где-то я уже видел эти правила. Сергей, Вы можете помочь мне в составлении robots.txt?
Привет, Петр! Я могу со 100% уверенностью сказать, что такого robots.txt Вы нигде не встречали. Есть аналоги, они ничуть не хуже, но я разрабатывал правила на основании своего опыта. Если есть замечания, прошу, критику я люблю. Касательно помощи связитесь со мной на странице «Контакты»