Индексация веб — сайта /ч.2/ — Обо всём на свете

Проявляем инициативу

После появления сайта в интернете рано или поздно робот его обнаружит. Это произойдет быстрее, если ссылки на новый сайт появятся на других веб-ресурсах.

А чтобы ускорить процесс индексирования, можно сообщить поисковым системам о новом сайте самостоятельно. Так, чтобы уведомить «Яндекс» о появлении нового ресурса, зайдите на страницу http://webmaster.yandex.ua/addurl.xml

и укажите свой URL. Если на сайте используется стандартный протокол HTTP, в адресе его указывать не нужно.

Введите код captcha и нажмите на кнопку Добавить. Для того чтобы сообщить американской поисковой системе Google о новом веб-сайте, перейдите на страницу www.google.com/webmasters/tools/submit-url

Доступ к ней возможен только после входа в учетную запись Google. Укажите адрес ресурса в поле URL. Введите код captcha и затем нажмите на кнопку «отправить запрос».

Создаем robots.txt вручную

Откройте текстовый редактор, нажмите на кнопку Сохранить и введите название файла — robots.txt. Обратите внимание на то, что все буквы в его названии обязательно должны быть строчными.

Если загрузить на сервер пустой файл или не загружать его вовсе, поисковый робот будет индексировать все документы, которые обнаружит на сайте.

Оператор User-Agent указывает, для какой поисковой системы предназначены перечисленные ниже него правила.

Оператор Disallow служит для создания этих правил. Положим, что в robots.txt имеются две строки:

User-Agent: Yandex

Disallow: /cgi-bin/

Это означает, что поисковому роботу «Яндекса» запрещено посещать директорию cgi-bin. При создании robots.txt нужно быть внимательным!

При помощи оператора Disallow можно запретить доступ к директориям, к отдельным файлам, к файлам и папкам, в названиях которых встречаются определенные символы.

Например, запрет на индексацию папки с названием folder делается так: Disallow: /folder/.

Как правильно расставить операторы: запреты нельзя перечислять в одной строке. Для каждой папки, каждого файла и любого другого правила должен быть указан свой оператор с новой строки.

Ещё по теме: Расчеты - без проблем

Оператор Disallow всегда должен располагаться в строке, которая следует за оператором User-Agent. Если правил Disallow несколько, каждое новое располагается на следующей строке.

При этом пустые строки между операторами Disallow недопустимы, так как для поискового робота они означают переход к следующему набору правил.

Если нужно задать одни и те же директивы для всех поисковых систем, напишите:

User-Agent: *

Disallow: /folder/

Если требуется задать свои директивы для разных поисковых систем, то наборы правил для каждой из них отделяются от предыдущей поисковой системы пустой строкой:

User-Agent: Yandex

Disallow: /folder/

User-Agent: GoogleBot

Disallow: /file.html

В файле robots.txt могут быть указаны общие правила для всех поисковых систем либо же заданы отдельные — для некоторых поисковиков. Так, для основных поисковых роботов используются следующие названия:

■ «Яндекс» Yandex

■ Google GoogleBot

■ Bing bingbot

■ Mail.Ru Mail.ru

■ Yahoo! Slurp

■ Alexa la_archiver

■ «Яндекс.Блоги» YandexBlog

Если нужно задать правила для всех поисковых систем, тогда в файле следует прописать User-Agent: *.

Дополнительные директивы

Помимо основных операторов User-Agent и Disallow используются также дополнительные директивы — часть из них понятна только некоторым поисковым роботам.

■ Директива Host. Директива Host нужна для того, чтобы при наличии зеркал сайта указать роботу на главный адрес ресурса. Самый простой пример зеркала — написание названия сайта с www и без оного.

Сайты bugaeff.ru и www.bugaeff.ru для поискового робота являются двумя разными ресурсами, поэтому нужно написать в файле robots.txt, какой из них является основным.

Например, так: Host: bugaeff.ru. Эта строка должна следовать непосредственно за последней строкой Disallow. В ней недопустимо указывать IP-адреса, ставить слэш (/) в конце адреса и символы http:// в начале, давать два домена в одной строке.

Ещё по теме: Windows 8 революция или нет

■ Директива Crawl-delay. Директива Crawl-delay может быть полезна в тех случаях, когда нужно снизить нагрузку на сервер, которая непременно создается при закачке сайта роботом.

С ее помощью можно задать минимальный интервал между концом загрузки предыдущей веб-страницы и началом закачки следующей. Например, если в файле указано Crawl-delay: 2, это означает, что интервал между загрузкой страниц равен двум секундам.

Продолжение следует.