10 вещей, которые можно сделать с Robots.txt для SEO

Robots.txt - очень полезный, но не всегда используемый инструмент, позволяющий вебмастеру контролировать то, как сайт индексируется роботами поисковых систем. Большинство "пауков" поисковых систем используют robots.txt как инструкцию по индексации сайта.

Admin
7 октября 2008г.

Используя robots.txt вы можете убедиться, что пауки индексируют только те части вашего сайта, которые вы разрешаете в этом файле.

Запрет индексации URL с SessionID

Допустим Ваш сайт содержит скрипты, которые используют идентификаторы сессии в дополнении к URL. Однако, ?Session_id = lkj23lj234, который может быть добавлен к некоторым URL, выглядит для поисковых систем, как дубликат страницы. Содержание по адресу URL и URL с добавленным идентификатором сессии абсолютно одинаковое, но расположенно на разных адресах. Это может привести к санкциям в поисковой выдаче, так что лучше запретить паукам индексировать любые идентификаторы сессий:

User-agent: *
Disallow: *session_id=

Указать "паукам" местонахождение вашей карты сайта (XML Sitemap)

Если у вас есть XML Sitemap, то вы можете указать местоположение этого файла для пауков с помощью robots.txt. Конечно, вы можете добавить его в инструменты Google Webmaster Tools и Yahoo! Site Explorer, но чтобы о его существовании знали других пауки, которые могут поддерживать протокол Sitemap, необходимо добавить следующее правило:

Sitemap: http://www.domain.com/sitemap.xml

Запрет индексации отдельных расширений файлов

Вы, возможно, не захотите чтобы некоторые страницы или файлы на вашем сайте индексировались поисковыми системами, поэтому можно сделать так!

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.inc$

Закрытие директорий для пауков

Чтобы закрыть доступ паукам к определенным каталогам, необходимо добавить следующую запись в robots.txt:

User-agent:  *
Disallow: /cgi-bin/

Закрытие директорий, содержащих определенные слова

Вы можете иметь несколько каталогов с похожим названием, которые вы хотите, чтобы были закрыты для пауков:

User-Agent: *
Disallow: /admin*/

Закрытие директорий, исключая определенные файлы

Даже если вы заблокировали весь каталог, там может быть страница, которую вы все еще хотите оставить доступной для пауков:

User-Agent: *
Disallow: /restricted/
Allow: /restricted/public.htm

Запрет отдельных пауков

Если вы не хотите, чтобы какие то определенные пауки посещали ваш сайт, то запретить это можно так:

User-agent: WebCopier
Disallow: /

Разрешить Google Images Spider индексировать только картинки

User-agent: Googlebot-Image
Disallow:
Allow: /*.gif$
Allow: /*.png$
Allow: /*.jpeg$
Allow: /*.jpg$
Allow: /images

Позволить Google AdSense Spider индексировать весь сайт

Если у вас есть реклама Google AdSense на вашем сайте, то AdSense паук будет сканировать содержание вашего сайта, чтобы убедиться что реклама подходит и соответствует содержанию. Если вы закрыли доступ другим паукам в отдельные части вашего сайта, но вы хотите чтобы реклама AdSense соответствовала содержимому страниц, которые закрыты для обычных пауков.

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

Комментарии отсутствуют

Добавление комментариев доступно только зарегистрированным пользователям