Индексация веб — сайта /ч.2/

Начало здесь.

Проявляем инициативу

После появления сайта в интернете рано или поздно робот его обнаружит. Это произойдет быстрее, если ссылки на новый сайт появятся на других веб-ресурсах.

А чтобы ускорить процесс индексирования, можно сообщить поисковым системам о новом сайте самостоятельно. Так, чтобы уведомить «Яндекс» о появлении нового ресурса, зайдите на страницу http://webmaster.yandex.ua/addurl.xml

Yandex

и укажите свой URL. Если на сайте используется стандартный протокол HTTP, в адресе его указывать не нужно.

Введите код captcha и нажмите на кнопку Добавить. Для того чтобы сообщить американской поисковой системе Google о новом веб-сайте, перейдите на страницу www.google.com/webmasters/tools/submit-url

Доступ к ней возможен только после входа в учетную запись Google.   Укажите адрес ресурса в поле URL. Введите код captcha и затем нажмите на кнопку «отправить запрос».

Создаем robots.txt вручную

Откройте текстовый редактор, нажмите на кнопку Сохранить и введите название фай­ла — robots.txt. Обратите внимание на то, что все буквы в его названии обязательно должны быть строчными.

Если загрузить на сервер пу­стой файл или не загружать его вовсе, поис­ковый робот будет индексировать все докумен­ты, которые обнаружит на сайте.

Оператор User-Agent указывает, для какой по­исковой системы предназначены перечислен­ные ниже него правила.

Оператор Disallow служит для создания этих правил. Положим, что в robots.txt имеются две строки:

User-Agent: Yandex

Disallow: /cgi-bin/

Это означает, что поисковому роботу «Яндекса» запрещено посещать директорию cgi-bin. При создании robots.txt нужно быть внимательным!

При помощи оператора Disallow можно запре­тить доступ к директориям, к отдельным фай­лам, к файлам и папкам, в названиях которых встречаются определенные символы.

Напри­мер, запрет на индексацию папки с названием folder делается так: Disallow: /folder/.

Как правильно расставить операторы: за­преты нельзя перечислять в одной строке. Для каждой папки, каждого файла и любого друго­го правила должен быть указан свой оператор с новой строки.

Оператор Disallow всегда дол­жен располагаться в строке, которая следует за оператором User-Agent. Если правил Disallow несколько, каждое новое располага­ется на следующей строке.

При этом пустые строки между операторами Disallow недопусти­мы, так как для поискового робота они означа­ют переход к следующему набору правил.

Если нужно задать одни и те же директивы для всех поисковых систем, напишите:

User-Agent: *

Disallow: /folder/

Если требуется задать свои директивы для разных поисковых систем, то наборы правил для каждой из них отделяются от предыдущей поисковой системы пустой строкой:

User-Agent: Yandex

Disallow: /folder/

 

User-Agent: GoogleBot

Disallow: /file.html

В файле robots.txt могут быть указаны общие правила для всех поисковых систем либо же заданы отдельные — для некоторых поиско­виков. Так, для основных поисковых роботов используются следующие названия:

■  «Яндекс» Yandex

■  Google        GoogleBot

■  Bing              bingbot

■  Mail.Ru       Mail.ru

■  Yahoo!        Slurp

■  Alexa           la_archiver

■ «Яндекс.Блоги» YandexBlog

Если нужно задать правила для всех поис­ковых систем, тогда в файле следует пропи­сать User-Agent: *.

Дополнительные директивы

Помимо основных операторов User-Agent и Disallow используются также дополнитель­ные директивы — часть из них понятна только некоторым поисковым роботам.

■ Директива Host. Директива Host нужна для того, чтобы при наличии зеркал сайта указать роботу на главный адрес ресурса. Самый простой пример зеркала — написание названия сайта с www и без оного.

Сайты bugaeff.ru и www.bugaeff.ru для поискового робота явля­ются двумя разными ресурсами, поэтому нужно написать в файле robots.txt, какой из них является основным.

Например, так: Host: bugaeff.ru. Эта строка должна следовать непосредственно за последней строкой Disallow. В ней недопустимо указывать IP-адреса, ставить слэш (/) в конце адреса и символы http:// в начале, давать два до­мена в одной строке.

■ Директива Crawl-delay. Директива Crawl-delay может быть полезна в тех случаях, ког­да нужно снизить нагрузку на сервер, кото­рая непременно создается при закачке сайта роботом.

С ее помощью можно задать минимальный интервал между концом за­грузки предыдущей веб-страницы и началом закачки следующей. Например, если в файле указано Crawl-delay: 2, это означает, что ин­тервал между загрузкой страниц равен двум секундам.

Продолжение следует.



Понравилась статья? Поделиться с друзьями: