Начало здесь.
Проявляем инициативу
После появления сайта в интернете рано или поздно робот его обнаружит. Это произойдет быстрее, если ссылки на новый сайт появятся на других веб-ресурсах.
А чтобы ускорить процесс индексирования, можно сообщить поисковым системам о новом сайте самостоятельно. Так, чтобы уведомить «Яндекс» о появлении нового ресурса, зайдите на страницу http://webmaster.yandex.ua/addurl.xml
и укажите свой URL. Если на сайте используется стандартный протокол HTTP, в адресе его указывать не нужно.
Введите код captcha и нажмите на кнопку Добавить. Для того чтобы сообщить американской поисковой системе Google о новом веб-сайте, перейдите на страницу www.google.com/webmasters/tools/submit-url
Доступ к ней возможен только после входа в учетную запись Google. Укажите адрес ресурса в поле URL. Введите код captcha и затем нажмите на кнопку «отправить запрос».
Создаем robots.txt вручную
Откройте текстовый редактор, нажмите на кнопку Сохранить и введите название файла — robots.txt. Обратите внимание на то, что все буквы в его названии обязательно должны быть строчными.
Если загрузить на сервер пустой файл или не загружать его вовсе, поисковый робот будет индексировать все документы, которые обнаружит на сайте.
Оператор User-Agent указывает, для какой поисковой системы предназначены перечисленные ниже него правила.
Оператор Disallow служит для создания этих правил. Положим, что в robots.txt имеются две строки:
User-Agent: Yandex
Disallow: /cgi-bin/
Это означает, что поисковому роботу «Яндекса» запрещено посещать директорию cgi-bin. При создании robots.txt нужно быть внимательным!
При помощи оператора Disallow можно запретить доступ к директориям, к отдельным файлам, к файлам и папкам, в названиях которых встречаются определенные символы.
Например, запрет на индексацию папки с названием folder делается так: Disallow: /folder/.
Как правильно расставить операторы: запреты нельзя перечислять в одной строке. Для каждой папки, каждого файла и любого другого правила должен быть указан свой оператор с новой строки.
Оператор Disallow всегда должен располагаться в строке, которая следует за оператором User-Agent. Если правил Disallow несколько, каждое новое располагается на следующей строке.
При этом пустые строки между операторами Disallow недопустимы, так как для поискового робота они означают переход к следующему набору правил.
Если нужно задать одни и те же директивы для всех поисковых систем, напишите:
User-Agent: *
Disallow: /folder/
Если требуется задать свои директивы для разных поисковых систем, то наборы правил для каждой из них отделяются от предыдущей поисковой системы пустой строкой:
User-Agent: Yandex
Disallow: /folder/
User-Agent: GoogleBot
Disallow: /file.html
В файле robots.txt могут быть указаны общие правила для всех поисковых систем либо же заданы отдельные — для некоторых поисковиков. Так, для основных поисковых роботов используются следующие названия:
■ «Яндекс» Yandex
■ Google GoogleBot
■ Bing bingbot
■ Mail.Ru Mail.ru
■ Yahoo! Slurp
■ Alexa la_archiver
■ «Яндекс.Блоги» YandexBlog
Если нужно задать правила для всех поисковых систем, тогда в файле следует прописать User-Agent: *.
Дополнительные директивы
Помимо основных операторов User-Agent и Disallow используются также дополнительные директивы — часть из них понятна только некоторым поисковым роботам.
■ Директива Host. Директива Host нужна для того, чтобы при наличии зеркал сайта указать роботу на главный адрес ресурса. Самый простой пример зеркала — написание названия сайта с www и без оного.
Сайты bugaeff.ru и www.bugaeff.ru для поискового робота являются двумя разными ресурсами, поэтому нужно написать в файле robots.txt, какой из них является основным.
Например, так: Host: bugaeff.ru. Эта строка должна следовать непосредственно за последней строкой Disallow. В ней недопустимо указывать IP-адреса, ставить слэш (/) в конце адреса и символы http:// в начале, давать два домена в одной строке.
■ Директива Crawl-delay. Директива Crawl-delay может быть полезна в тех случаях, когда нужно снизить нагрузку на сервер, которая непременно создается при закачке сайта роботом.
С ее помощью можно задать минимальный интервал между концом загрузки предыдущей веб-страницы и началом закачки следующей. Например, если в файле указано Crawl-delay: 2, это означает, что интервал между загрузкой страниц равен двум секундам.
Продолжение следует.