Роботам
вход воспрещен!
Визит
индексирующего робота приносит не
только радость (посетителей, спустя
какое-то время), но и проблемы:
повышается нагрузка на сервер;
индексируются документы, защищенные
авторским правом; засоряется лог-файл
и т. д. Решение проблем нашлось простое:
расположив в корневом каталоге сайта
текстовый файл robots.txt, владельцы
сайтов могут сказать роботу, что
индексировать, а что нет. Такой подход
также часто применяется при
необходимости направить робота
определенного поисковика на
сделанный исключительно для него
дорвей.
На каком же
языке говорит с роботами этот файл? На
командном. Основных команд две, и
звучат они примерно как «Стой! Кто
идет?!» (User-Agent) и, после выяснения
личности (каждый робот имеет имя),
приказ
«Пошел ты...» (Disallow).
Обратиться ко всем роботам сразу —
всем, которые не имеют отдельных
приказов для них, — можно по имени «*».
Итак, следом за
обращением (одной или несколькими
строчками с User-Agent) должен идти полный
текст приказа (в виде одной или более
строчек Disallow), например,
User-Agent: *
Disallow: /cgi-bin/
означает, что ни
один робот не имеет права
индексировать каталог /cgi-bin/ и все, что
в нем расположено. Строка после Disallow —
это часть URL без имени домена, и все
адреса, начинающиеся с этой строки,
робот будет старательно избегать при
индексации. Помните, в этой строке
нельзя задавать маски и регулярные
выражения! Если после Disallow нет никакой
информации,
это значит, что
данному роботу позволено все. Пример:
User-Agent:
StackRambler/1.4
User-Agent:
Yandex/1.01.001
User-Agent:
Aport
Disallow:
User-Agent: *
Disallow: /
Здесь русским
поисковикам позволено все, а западным
— ничего. Будьте внимательны, пустые
строки отделяют информацию для разных
роботов, и в нижеприведенном примере
запрет на индексацию private будет
проигнорирован:
User-Agent: *
Disallow: /cgi-bin
Disallow: /private
Источник: журнал CHIP
01/2002г.
|