Командный файл поисковиков - Robots.txt

В этой краткой статье мы доступно рассматриваем команды robots.txt для поисковых роботов с примерами и советами реализации. Если Вы не знаете, что это такое, но у Вас есть сайт, обязательно прочтите эту статью, возможно, Вы найдете причину того, из-за чего к вам не заходят поисковики или отыщите причину утечки секретной информации

robots.txt - это обычный текстовый файл, наличие которого самым первым проверяют поисковые роботы из-за того, что им, возможно, не придется индексировать этот сайт, а соответственно, его время не будет потеряно зря.

Для этого создадим файл robots.txt и напишем в него:
user-agent: * #Всем поисковым роботам
disallow: / #Запрещено к индексации все (корневая директория)

Но поисковик может обнаружить и другой вариант:
user-agent: * # Всем поисковым роботам
disallow: /temp/ #Запрещена к индексации директория temp
disallow: /virus/ #Запрещена к индексации директория virus

Также поисковой робот может обнаружить и такой вариант:
user-agent: googlebot #Поисковый робот google
disallow: / #Запрещено к индексации все (корневая директория)

И смешанный вариант:
user-agent: googlebot #Поисковый робот google
disallow: / #Запрещено к индексации все (корневая директория)

user-agent: * # Всем поисковым роботам
disallow: /temp/ #Запрещена к индексации директория temp
disallow: /virus/ #Запрещена к индексации директория virus

Теперь давайте рассмотрим первый пример. На мой взгляд, он актуален для тех сайтов, контент которых не должен распространяться с помощью поисковых роботов. Например, закрытый сайт любителей windows 3.11.

В варианте номер 2, как Вы заметили, отключены для индексации две директории, одна с постоянно временной информацией (эдакая свалка) а вторая со злостным вирусом. И первое, и второе не желательно распространять в Интернете, т.к. уже все и так на грани информационного апокалипсиса. Поэтому все, что не для всех, можно отключить. Вторая сторона медали состоит еще и в том, что robots.txt общедоступен и любой может увидеть, что Вы там спрятали (исключили из индексации), какие директории, файлы и загореться желанием заполучить доступ именно к ним. Тем более, если Вы напишите disallow: /virus/1.zip уверен, что найти его после этого не составит труда даже ребенку. А «совсем некоторые» вебмастера упорно продолжают развивать этот медот и вписывать, таким образом, в robots.txt файлы, не подлежащие общественному просмотру.

И в последнем примере мы отключили индексацию для google, а зачем он нам нужен? Может быть, мы любим Рамблер, который по сей день не видит разницы между htm и asp, php и т.д. А google уже обрабатывает команды расширений в robots.txt…

Пример (только для googlebot):
disallow: /temp/*.cgi #Запрещены к индексации все cgi файлы в директории temp
или
disallow: *.cgi #Запрещены к индексации все cgi файлы

Напоследок еще добавлю, что robots.txt нужно размещать в корневой директории (Например: http://www.pcnews.biz/robots.txt), а сайт не имеющий robots.txt возможно будет подвержен не регулярным набегам поисковых ботов.

Автор: sun