SEO и поисковое продвижение

10 вещей, которые можно сделать с Robots.txt для SEO

Robots.txt - очень полезный, но не всегда используемый инструмент, позволяющий вебмастеру контролировать то, как сайт индексируется роботами поисковых систем. Большинство "пауков" поисковых систем используют robots.txt как инструкцию по индексации сайта.

10 вещей, которые можно сделать с Robots.txt для SEO
Поделиться в соцсетях:

Используя robots.txt вы можете убедиться, что пауки индексируют только те части вашего сайта, которые вы разрешаете в этом файле.

Запрет индексации URL с SessionID

Допустим Ваш сайт содержит скрипты, которые используют идентификаторы сессии в дополнении к URL. Однако, ?Session_id = lkj23lj234, который может быть добавлен к некоторым URL, выглядит для поисковых систем, как дубликат страницы. Содержание по адресу URL и URL с добавленным идентификатором сессии абсолютно одинаковое, но расположенно на разных адресах. Это может привести к санкциям в поисковой выдаче, так что лучше запретить паукам индексировать любые идентификаторы сессий:

User-agent: *
Disallow: *session_id=

Указать "паукам" местонахождение вашей карты сайта (XML Sitemap)

Если у вас есть XML Sitemap, то вы можете указать местоположение этого файла для пауков с помощью robots.txt. Конечно, вы можете добавить его в инструменты Google Webmaster Tools и Yahoo! Site Explorer, но чтобы о его существовании знали других пауки, которые могут поддерживать протокол Sitemap, необходимо добавить следующее правило:

Sitemap: http://www.domain.com/sitemap.xml

Запрет индексации отдельных расширений файлов

Вы, возможно, не захотите чтобы некоторые страницы или файлы на вашем сайте индексировались поисковыми системами, поэтому можно сделать так!

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.inc$

Закрытие директорий для пауков

Чтобы закрыть доступ паукам к определенным каталогам, необходимо добавить следующую запись в robots.txt:

User-agent:  *
Disallow: /cgi-bin/

Закрытие директорий, содержащих определенные слова

Вы можете иметь несколько каталогов с похожим названием, которые вы хотите, чтобы были закрыты для пауков:

User-Agent: *
Disallow: /admin*/

Закрытие директорий, исключая определенные файлы

Даже если вы заблокировали весь каталог, там может быть страница, которую вы все еще хотите оставить доступной для пауков:

User-Agent: *
Disallow: /restricted/
Allow: /restricted/public.htm

Запрет отдельных пауков

Если вы не хотите, чтобы какие то определенные пауки посещали ваш сайт, то запретить это можно так:

User-agent: WebCopier
Disallow: /

Разрешить Google Images Spider индексировать только картинки

User-agent: Googlebot-Image
Disallow:
Allow: /*.gif$
Allow: /*.png$
Allow: /*.jpeg$
Allow: /*.jpg$
Allow: /images

Позволить Google AdSense Spider индексировать весь сайт

Если у вас есть реклама Google AdSense на вашем сайте, то AdSense паук будет сканировать содержание вашего сайта, чтобы убедиться что реклама подходит и соответствует содержанию. Если вы закрыли доступ другим паукам в отдельные части вашего сайта, но вы хотите чтобы реклама AdSense соответствовала содержимому страниц, которые закрыты для обычных пауков.

User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Комментарии отсутствуют
Добавление комментариев доступно только зарегистрированным пользователям