Каждый поисковик использует веб-пауков для индексирования сайтов.
Казалось бы, от них не скрыться никому. Однако, используя всего
несколько команд, вы способны превратить их в послушных, почти
домашних существ.
Что произойдет, если подсунуть роботу поисковой системы незащищенный
сайт? Правильно, он сделает свое черное дело :)
У вас есть шанс увернуться от него, избежать его путешествий!
Но если у вас нет маленького текстового файлика в корневом каталоге
сервера, ваш сайт может стать таким же доступным, как Клаудиа
Шиффер в прозрачном полиэтиленовом бикини.
Поисковые системы типа Excite или
Altavista используют веб-пауки, также
известных как роботы, для того, что бы создавать индексы в их
базах данных. Эти роботы прочесывают каталоги HTML файлов, загружая
страницы одну за другой по обычным ссылкам на них, и обновляя
базу, в зависимости от того какую текстовую или meta-информацию
они нашли.
Далее — для таких же как я противников того, что какое-то там
виртуальное насекомое будет неконтролируемо лазить по вашим файлам.
Это чуток смахивает на муравьёв под брюками — незабываемые ощущения,
но все-таки хочется как-то контролировать ситуацию. Это можно
делать с помощью специального файла.
К файлу robots.txt обращается каждый
уважающий себя паук перед тем как отправиться в путешествие; в
нем указано, как именно следует каталогизировать ваш сайт. Это
должен быть текстовый файл ASCII,
лежащий в корневой директории сервера. Обычно это директория,
где расположена «домашняя» страничка. Файл определяет,
какие директории и файлы пауку индексировать нельзя.
Протокол ограничения действий робота был представлен Мартином
Костером в 1994 году для решения проблемы веб-пауков при том,
что их популярность тогда резко возрастала. Страшна, прежде всего,
ресурсная проблема — поскольку роботы слабо контролируемы, они
стреляли запросами как из пулемета. Естественно, сервера пытались
с такой же скоростью «отдавать» файлы.
Другая проблема — в том, что роботы при индексировании информации
глубоко зарывались в дерево каталогов, доставая даже до cgi-скриптов.
Протокол этот быстро нашел поддержку среди веб-разработчиков как
метод организации процесса индексирования.
С тех пор размеры интернета поразительно увеличились, теперь
его используют миллионы людей. А веб-пауков только прибавилось.
И сейчас, как никогда, всем веб-разработчикам необходимо иметь
правильно написанный файл robots.txt .
В синтаксисе этого файла есть свои ньюансы. Если все должно работать
безотказно и не позволять роботам смотреть на «служебные» страницы,
вам следует быть предельно внимательными, что б не допустить *ни
одной* ошибки или опечатки. В завершенном robots.txt фактически
не на что смотреть, но если у вас сложный сайт можете пойти по
легкому пути и принять первоклассную помощь, которую вам предлагает
RoboGen на http://www.rietta.com/robogen/
. Он хорош для Windows9x, но, на момент написания статьи, под
WindowsNT он не запускался.
RoboGen распространяется в двух версиях: полная и ограниченная.
Ограниченная (Limited) — это голый скелет: она просто создает
файлы исключения (robots.txt). В ней недостает возможности открытия
существующих файлов и авто-заливки их прямо на FTP сервер. Полная
(Standart) версия более функциональна. Она делает все то же, что
и ограниченная, плюс то, чего она не делает. Это открытие существующих
файлов и заливка файлов на FTP сервер. Бесплатная ознакомительная
версия полной программы доступна для загрузки, а стоимость программы
составляет всего $12.95. Довольно дешево для такого инструмента!
Если вы предпочитаете держать деньги в кармане, тогда можете
разогревать пальцы — сейчас будем стучать по клавиатуре, осваивая
азы кодирования — а почему бы и нет? Это не сложно - просто кропотливо.
Скорость набора тут, пожалуй, важнее, чем познания в компьютерах.
Каждая секция включает в себя имя пользовательской программы
(робота) и пути, которые он не должен видеть. Вы не знали, что
у поисковых пауков есть имена? Да — Сеть очень дружественное место
и многое называется не своими первичными именами :)
У основных поисковых систем имена такие:
ALTA VISTA - Scooter, VScooter, Mercator
EXCITE - Architext
HOTBOT/AOL - Inktomi's Slurp
INFOSEEK - Sidewinder, Mozilla
LYCOS - T-Rex, Mozilla
INKTOMI - Slurp
GOOGLE - Backrub, Googlebot
N. LIGHT - Gulliver
WEBCRAWLER - Excites Architext
Вскоре вы сможете отметить, какой из этих ребят с чувством юмора,
а какой ведет скучный образ жизни. Мне симпатичен Inktomi Думаю,
я смог бы иметь дело с этими ребятами.
Нужно помнить, что роботы могут получить *все* доступные файлы,
если они явно не запрещены в вашем robots.txt . Разрешено все,
что не запрещено. Обычно, вы можете прочесть этот файл просто
сделав запрос из броузера, например: www.mydomain.com/robots.txt
. Вы увидите кодированый текстовый файл, но очень пригодный для
чтения.
Всё это документировано Стандартом Исключения Страниц Роботами,
и все роботы должны понимать и уважать правила в файле robots.txt
.
Примеры:
User-agent: *
Disallow:
Пояснение:
Звездочка (*) в поле User-agent это сокращения для "всем
роботам". Потому что разрешено все, что не запрещено.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Пояснение:
В примере, все роботы могут видеть все директории за исключением
трех упомянутых.
User-agent: BadBot
Disallow: /
User-agent: *
Disallow: /private/
Тут: Роботу с именем BadBot запрещено все. Пустая строка
означает новую «запись» - команда для нового робота. Все остальные
роботы могут видеть все, за исключением папки private .
User-agent: WeirdBot
Disallow: /tmp/
Disallow: /private/
Disallow: /links/listing.html
User-agent: *
Disallow: /tmp/
Disallow: /private/
Этот код предотвращает просмотр страницы листинга, временной
папки и папки private роботом WeirdBot. Все остальные роботы видят
все, кроме временной папки и private . Если думаете, что этот
код неэффективен -- вы правы :)
Ок — это довольно полный обзор концепции robots.txt . Но перед
тем как вы сорветесь с места в поисках старого верного текстового
редактора и напишете свой супер модный контроллер роботов третьего
тысячелетия, есть одна очень, очень важная вещь касаемо файлов
robots.txt , особенно для тех, у кого коммерческие веб-сайты или
другая совершенно секретная информация.
Как обычный коммерческий сайт вы можете предлагать загрузить
покупку со страницы после ее оплаты. Понятно, что вы не хотите,
что б пауки лазили по таким страницам — если вы, конечно, не хотите,
что бы можно было бесплатно скачать вашу продукцию с поисковой
машины. Это нехорошо для бизнеса — для счетчика скачиваний хорошо,
а для бизнеса — нехорошо. И вы честно пропишите все эти адреса
в robots.txt что бы избежать проблем, но...
Большое количество людей уже знают об этом robots.txt файле...
Некоторые не-очень-хорошие-гады подумают: «Зачем платить? Я ж
могу просто набрать в броузере: www.yoursite.com/robots.txt »
Оййй! Очень чувствительный пункт из robots.txt теперь открыт
глазам всех. Любой может просто перенаправить броузер в указанную
директорию и, зачастую, скачать программу бесплатно. Опять — нехорошо
для бизнеса, мои друзья!
Вот оно, решение.
Перестаньте беспокоиться о robots.txt . Наоборот, перечислите
все секретные папки, которые там и должны быть — это для защиты
от их индексирования поисковыми движками. Но убедитесь, что все
файлы находятся в нессылаемых неизвестных поддиректориях или,
еще надежнее, защищены CGI скриптом.
Если вы используете менее безопасный вариант с неупомянутыми
подпапками, не забудьте вставить в коренную (ту, которую вы прописали
в robots.txt, страничку index.html. Иначе сервер (с настройками
по умолчанию) покажет полный листинг файлов и директорий. В самом
index.html можно написать все, что угодно.
Это может быть простенький html файл, который сообщает посетителям,
что им не разрешено смотреть в эту подпапку, или можно сделать
html файл с перенаправлением на другую страницу. Но запомните,
никогда не давайте людям листинг чего-либо в директории, не разместив
index.html в какой бы это ни было директории — это очень плохая
привычка. Пожалуйста, не делайте так *нигде*. Рано или поздно
это приведет к неприятностям.
Если сайт не коммерческий, все что оказывается в robots.txt —
только для косметических поправок или в целях приватности. Понятно,
это важные вещи, но на коммерческом сайте мы говорим о потере
денег — куда более серьезно!
Если вы все это еще не воплотили в жизнь, тогда маленький, старый
и седой robots.txt должен получить долю и вашего внимания в не
очень отдаленном будущем. Вы не пожалеете о проведенном времени.
Это я вам обещаю :)
Автор: Краснов Игорь |