Индексация веб-сайта /ч.3/

Предыдущий пост здесь.

Автоматическое создание robots.txt

При создании файла robots.txt вручную не ис­ключены ошибки в синтаксисе, поэтому можно использовать онлайн-генератор. Конечно, файл затем придется дорабатывать вручную, но ос­новные директивы в нем будут прописаны. Например, можно использовать сервис www. mcanerin.com/en/search-engine/robots-txt.asp

servis

В списке Default-All Robots are выберите одно из значений. Если поисковые роботы допускаются к сайту, выберите вариант Allowed, если же доступ нужно запретить — Refused.

В списке Crawl-Delay укажите значение директивы отсрочки за­грузки страниц, а в поле Sitemap напишите путь к карте сайта.

Если требуется ограничить доступ к сайту некоторых поисковых роботов, выберите в списке напротив их названий вариант Refused.

В разделе Restricted Directories укажите папки, к которым нужно закрыть доступ. В конце каждой папки должен быть символ /.

Нажмите на кнопку Create robots.txt, чтобы сгенерировать файл; после чего остается скопировать результат из формы и вставить в текстовый файл.

Проверка работоспособности robots.txt

Убедиться в том, что в вашем файле robots.txt нет ошибок и что он воспринимается поисковыми роботами, можно, например, при помощи онлайн-сервиса «Яндекс.Вебмастер» (http://webmaster. yandex.ru).

Регистрация на сервисе для проверки файла robots.txt не требуется. Щелкните по ссыл­ке Проверить robots.txt на заглавной странице. Проверка производится для робота с именем Yandex, а при его отсутствии — для всех роботов (User-Agent: *).

Введите адрес сайта в поле Имя хоста и нажмите на кнопку Загрузить robots.txt с сайта. Содержи­мое файла отобразится в поле Robots.txt.

Если ошибки будут обнаружены, они отобразятся в окне.

Удобно: чтобы в файле robots.txt было проще разобраться, в нем допустимо добавление комментариев, которые роботами не обрабатываются.

Перед текстом комментария ставится символ #. Сам текст может выглядеть так: Disallow: /wp- admin/ #запрещен доступ и папке wp-admin

Комментарии можно помещать и на одной строке с оператора­ми, однако, во избежание проблем с непониманием роботов, рекомендуется писать их на следующей строке.

Ещё по теме:   SETI заброшены, но ответа пока нет

Может возникнуть ситуация, когда создать файл robots.txt невозможно. Такая ситуация возможна, например, когда вы не имеете доступа к корневой директории ресурса по FTP и не можете записать в нее файл robots.txt.

В этом случае можно запретить индексацию отдельных страниц сайта иным способом. Для этого в код веб-страницы нужно включить тег МЕТА NAME=«ROBOTS» CONTENT=«NOINDEX».

Если же включить другой тег — МЕТА NAME=«ROBOTS» CONTENT=«NOFOLLOW», робот будет индексировать страниц, но проходить по ссылкам с нее, не будет.

Некоторые SEO « (Search Engine Optimization — « оптимизаторы поисковых систем) даже рекомендуют использовать эти теги вместо запретов в robots.txt, поскольку они имеют больший  вес для поисковых роботов.

Содержимое файла robots.txt  робот может проигнорировать, а вот такой тег он обработает обязательно.

Карта сайта для поисковиков

Карта интернет-сайта Sitemap.xml, представляющая собой список его разделов со ссылками, поначалу соз­давалась в формате HTML и использовалась для того, чтобы посетители могли быстро попасть именно на ту страницу, которая им необходима. Теперь же карта создается в основном для поис­ковых систем. Она особенно важна:

■ для сайтов, которые часто обновляются (блоги, форумы, новостные ресурсы);

■ для тех ресурсов, на которых есть страницы с мультимедийным AJAX-содержанием или изо­бражениями;

■  для сайтов, имеющих множество страниц, пло­хо связанных друг с другом при помощи ссылок или не связанных вовсе;

■  для новых проектов, на которых пока еще мало внешних ссылок.

Структура файла Sitemap.xml

В отличие от файла robots.txt, карта веб-сайта почти никогда не создается вручную. По крайней мере для больших сайтов очень трудно вручную перечислить все значимые страницы.

Однако любому веб-мастеру не помешает знать структу­ру этого файла, чтобы при необходимости иметь возможность внести в него правки.

Ещё по теме:   Скачиваем ролик с видеопортала

Итак, файл sitemap.xml начинается со следующих строк:

<?xml version=»1.0» encoding=»UTF-8″?>

<urlset xmlns=»http://www. sitemaps.org/

schemas/sitemap/0.9″>

В первой строке указывается кодировка (UTF-8 — обязательное требование для этого файла), во второй идет ссылка на текущий стандарт. Далее перечисляются ссылки.

Для каждой пишется блок команд, которые заключаются в блок <url>. Выглядит это так:

<url>

      <loc>http://bugaeff.ru/</loc>

      <lastmod>2014-01-12T15:25:56+00:00</

       lastmod>

      <changefreq>daily</changefreq>

      <priority>1.0</priority> </url>

Для каждой ссылки обязательным является толь­ко тег <loc>, остальные же необязательны, но именно они сообщают поисковым роботам важную информацию о страницах сайта.

Тег <lastmod> содержит сведения о последнем об­новлении страницы. Для робота это сигнал не заходить на нее, если он посещал страницу уже после того, как она была обновлена.

Тег <changefreq> сообщает роботу, как часто обновляется страница. Параметр daily означает ежедневное обновление.

Кроме того, существуют параметры yearly (ежегодное), weekly (ежене­дельное), monthly (ежемесячное), hourly (каждый час) и always (чаще, чем раз в час).

Тег <priority> используется для сообщения поис­ковому роботу о том, насколько важной является веб-страница. Можно установить разный прио­ритет — от 0 до 1. Обработав карты сайта, робот в первую очередь проиндексирует страницы с более высоким приоритетом.

Окончание следует.

Сергей Сергеевич/ автор статьи

Уроженец города Архангельcка. Работал в Усть-Камчатске на Дальнем Востоке. В настоящее время проживаю в Архангельске. Увлекаюсь шахматами, математикой, компьютерами, книгами, садом и огородом. Об этом и другом пишу на этом сайте!

Понравилась статья? Поделиться с друзьями: