Как правильно составить robots.txt для любого сайта?

Как правильно составить robots.txt для любого сайта, не зависимо от его движка?

Как поступают большинство вебмастеров?

Львиная доля сайтов в рунете делается на популярных CMS, причем этих движков не так и много.

Возьмем для примера тройку лидеров — это WordPress, Joomla, Drupal. Это данные за 2013 г., но думаю сейчас мало что изменилось!

По этим CMS написано и переписано огромное кол-во статей и уроков. В частности, вы всегда с легкостью найдете готовый robots.txt для любой из этих и других популярных CMS.

Поэтому большинство вебмастеров просто копируют чужие robots.txt и добавляют на свои сайты, часто не понимая – зачем нужна какая-либо строчка и нужна ли она вообще?

В итоге бывает так, что скопированные “роботсы” не до конца выполняют свою функцию. Т.е. не закрывают от индексации часть не нужных страниц, или еще хуже, по ошибке закрывают то что нужно. Ведь хотя и CMS одна и та же, но использовать ее можно по разному, и делают это разные люди!

Как правильно составить robots.txt для любого сайта?

Так как же правильно составить robots.txt для любого сайта, не зависимо от его движка?

1 ) Для начала, у вас конечно же должны быть хотя бы базовые знания SEO, и вы должны понимать, что нужно закрывать от индексации, а что нет. Эта тема не этой статьи, но сложного здесь ничего нет! Если коротко – вы должны закрыть от индексации дублирующие и бесполезные (без контентные и служебные) страницы.

2) Вы должны понимать из чего состоит файл robots.txt, какие директивы в него входят и как он строится.

3) Вы должны знать полную карту ссылок вашего сайта, т.е. все внутренние и внешние ссылки со всех страниц сайта.

На самом деле ничего сложного ни в одном из этих пунктов нет! Про первый пункт думаю все ясно, а про два остальных поговорим подробнее.

Создание файла robots.txt

Сложного здесь абсолютно ничего нет, и вам достаточно будет прочитать и изучить любуюиз этих страниц из help Яндекса или Google

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

https://support.google.com/webmasters/answer/6062608?hl=ru

Выделю основные моменты.

Создание

Создается и редактируется файл robots.txt с помощью любого текстового редактора и кладется в корневую директорию сайта.

Директивы

User-agent – указывает, каким роботам и каким поисковым системам использовать директивы ниже. Простыми словами, User-agent – это заголовок блока, в котором перечисляется, какие страницы можно сканировать, а какие нет.

Пустые строки в одном таком блоке не допустимы!

Пример:

Директивы Disallow и Allow – соответственно запрет доступа роботам или разрешение.

Использование спецсимволов * и $

* — любая, в том числе пустая последовательность символов

$ — означает конец строки

Примеры:

Директива Sitemap

Указывает путь к карте сайта sitemaps.xml

Директива Host

Указывает главное зеркало вашего сайта, например www.site.ru или site.ru

Пример:

Пример robots.txt для InstantCMS 2.0

robots.txt

InstantCMS (особенно 2-ая ветка )– отличная, гибка CMS с открытым исходным кодом, на которой можно делать проекты разной сложности! Это не такой популярный движок, как например WordPress, и статей посвященных ему не так много!

Попробуем составить robots.txt для сайта на InstantCMS 2.0 на примере alextwinner.ru – сайт на котором вы сейчас находитесь) Он построен именно на этой CMS.

Приступим.

Будем считать, что два первых пункта по созданию robots.txt для любого сайта вы уже изучили! Остается пункт № 3 – нам нужна полня карта ссылок сайта.

Кстати, ели вы думаете, что и так знаете какие ссылки есть на вашем сайте, то вы глубоко ошибаетесь!

Помимо основных ссылок на статьи (которые вы сами создаете), разные CMS генерируют кучу ссылок, о которых вы и не подозреваете! Отсюда – дубликаты контента и не нужные страницы в индексе поисковых систем!

Как просканировать весь сайт, подобно роботу ПС и узнать все ссылки сайта?

Сделать это может программа Xenu’s Link Sleuth. Это простая бесплатная программа, подробнее о ней смотрите здесь.

Запускаем и сканируем сайт

Через пару минут получаем отчет.

Этот отчет открывается в браузере и показывает список битых ссылок, ссылки с ошибками и редиректами и другое. В данном случае в этом отчете нас может заинтересовать только пункт “List of valid URLs you can submit to a search engine

Здесь можно наглядно увидеть большую часть ссылок на сайте. Но тут не показываются ссылки на скрипты, стили, изображения и т.д. Поэтому лучше использовать основное окно программы!

P.S.

Скопируйте этот список, он пригодится позже для проверки robots.txt


Теперь делаем сортировку ссылок по адресу

и приступаем к анализу.

Сразу же в начале попадаются дублирующие страницы. Это страницы сортировки по рейтингу и другим параметрам одной и той-же категории. У вас могут быть другие подобные страницы, в зависимости от созданных или используемых вами типов контента (посты, объявления и т.д.).

Все это – дубли основной категории и их нужно закрыть от индексации. Эти ссылки имеют одинаковый признак – “articles-”, поэтому закрываем их следующим правилом:

Далее идут ссылки, связанные с авторизаций. Все они не несут полезности и их тоже нужно закрыть от поисковиков.

Закрыть их сразу все можно одним правилом:

Обратите внимание на слеш в конце. В данном случае его лучше поставить, т.к. при этом будут закрыты от индексации все страницы в каталоге “auth” и во всех его подкаталогах.

Если слеш на конце не ставить, то от индексации будут закрыты все страницы начинающиеся с “/auth”! Т.е. если у вас вдруг будет полезная страница с адресом /author.html , то она тоже будет запрещена к индексации!

Будьте внимательны со слешами на конце!

Далее идут ссылки связанные с группами:

Здесь я бы закрыл “Активность” и “Участиники”, т.к. это бесполезные, в плане контента, страницы.

/groups/3/activity

/groups/3/members

Особенно “Участиники”, т.к. это просто ссылки на профили пользователей, а профили закрыты от неавторизованных (а значит и от поисковиков).

Добавляем соответствующие правила:

Здесь я поставил в конце символ “$” – для предотвращения возможных пересечений ссылок в будущем.

Далее, ссылка

/groups/index/all

полный дубликат

/groups

и почти полный

/groups/index/rating

Добавляем:

Так же следует обратить внимание на

/notegroup (это список всех записей групп)

и

/groups/3/content/notegroup (это записи принадлежащие отдельной группе)

Если групп несколько, в принципе можно оставить как есть, а если группа одна, то страницы эти практически дублирующие друг друга и есть смысл закрыть /notegroup

Далее идут rss и теги

RSS ленты однозначно закрываем

А вот закрывать ли теги – решать только вам! По поводу этого было и есть много споров, и однозначного ответа так и нет. Мое мнение – если делать теги с умом и не плодить их бездумно, то их стоит оставить открытыми!

Далее есть смысл закрыть папки

/templates

/wysiwyg

и однозначно

/users

и редирект внешних ссылок

/redirect

Вот список правил для этого:

Вот в принципе и все! У вас скорее всего получится немного другая картина. Но теперь вы поняли суть составления robots.txt и сможете составить его для любого сайта!

Кстати, проверить правильно ли составлен robots.txt и те ли страница закрыты от индексации, можно здесь

https://webmaster.yandex.ru/robots.xml

Просто вставьте в нужное поле скопированный ранее список.

Пример готового robots.txt для InstantCMS 2.0 вы можете скачать ниже!

Учтите! Этот пример для не совсем стандартной сборки InstantCMS 2.0 со стандартными наборами “Типов Контента” (например, нет стандартных блогов)!

Если нужен пример для стандартной сборки со стандартным набором типов контента – пишите в комментариях, сделаем!

robots.txt для InstantCMS 2.0

Теги:

Отправить ответ

2 Комментарий на "Как правильно составить robots.txt для любого сайта?"

avatar
Sort by:   newest | oldest | most voted
Zotak
Гость

А какой смысл в закрытии?

/templates

/wysiwyg

wpDiscuz