Robots.txt - очень полезный, но не всегда в полной мере использующийся инструмент, который позволяет вебмастерам контролировать, как их сайт индексируется роботами поисковых систем. Большинство "пауков" поисковых систем используют robots.txt как инструкцию по индексации сайта.
Используя robots.txt вы можете убедиться, что пауки индексируют только те части вашего сайта, которые вы разрешаете в этом файле.
Запрет индексации URL с SessionID.
Допустим Ваш сайт содержит скрипты, которые используют идентификаторы сессии в дополнении к URL. Однако, ?Session_id = lkj23lj234, который может быть добавлен к некоторым URL, выглядит для поисковых систем, как дубликат страницы. Содержание по адресу URL и URL с добавленным идентификатором сессии абсолютно одинаковое, но расположенно на разных адресах. Это может привести к санкциям в поисковой выдаче, так что лучше запретить паукам индексировать любые идентификаторы сессий: User-agent: * Disallow: *session_id=
Указать "паукам" местонахождение вашей карты сайта (XML Sitemap).
Если у вас есть XML Sitemap, то вы можете указать местоположение этого файла для пауков с помощью robots.txt. Конечно, вы можете добавить его в инструменты Google Webmaster Tools и Yahoo! Site Explorer, но чтобы о его существовании знали других пауки, которые могут поддерживать протокол Sitemap, необходимо добавить следующее правило:
Sitemap: http://www.domain.com/sitemap.xml
Запрет индексации отдельных расширений файлов.
Вы, возможно, не захотите чтобы некоторые страницы или файлы на вашем сайте индексировались поисковыми системами, поэтому можно сделать так!
Позволить Google AdSense Spider индексировать весь сайт.
Если у вас есть реклама Google AdSense на вашем сайте, то AdSense паук будет сканировать содержание вашего сайта, чтобы убедиться что реклама подходит и соответствует содержанию. Если вы закрыли доступ другим паукам в отдельные части вашего сайта, но вы хотите чтобы реклама AdSense соответствовала содержимому страниц, которые закрыты для обычных пауков.