Предыдущий пост здесь.
Автоматическое создание robots.txt
При создании файла robots.txt вручную не исключены ошибки в синтаксисе, поэтому можно использовать онлайн-генератор. Конечно, файл затем придется дорабатывать вручную, но основные директивы в нем будут прописаны. Например, можно использовать сервис www. mcanerin.com/en/search-engine/robots-txt.asp
В списке Default-All Robots are выберите одно из значений. Если поисковые роботы допускаются к сайту, выберите вариант Allowed, если же доступ нужно запретить — Refused.
В списке Crawl-Delay укажите значение директивы отсрочки загрузки страниц, а в поле Sitemap напишите путь к карте сайта.
Если требуется ограничить доступ к сайту некоторых поисковых роботов, выберите в списке напротив их названий вариант Refused.
В разделе Restricted Directories укажите папки, к которым нужно закрыть доступ. В конце каждой папки должен быть символ /.
Нажмите на кнопку Create robots.txt, чтобы сгенерировать файл; после чего остается скопировать результат из формы и вставить в текстовый файл.
Проверка работоспособности robots.txt
Убедиться в том, что в вашем файле robots.txt нет ошибок и что он воспринимается поисковыми роботами, можно, например, при помощи онлайн-сервиса «Яндекс.Вебмастер» (http://webmaster. yandex.ru).
Регистрация на сервисе для проверки файла robots.txt не требуется. Щелкните по ссылке Проверить robots.txt на заглавной странице. Проверка производится для робота с именем Yandex, а при его отсутствии — для всех роботов (User-Agent: *).
Введите адрес сайта в поле Имя хоста и нажмите на кнопку Загрузить robots.txt с сайта. Содержимое файла отобразится в поле Robots.txt.
Если ошибки будут обнаружены, они отобразятся в окне.
Удобно: чтобы в файле robots.txt было проще разобраться, в нем допустимо добавление комментариев, которые роботами не обрабатываются.
Перед текстом комментария ставится символ #. Сам текст может выглядеть так: Disallow: /wp- admin/ #запрещен доступ и папке wp-admin
Комментарии можно помещать и на одной строке с операторами, однако, во избежание проблем с непониманием роботов, рекомендуется писать их на следующей строке.
Может возникнуть ситуация, когда создать файл robots.txt невозможно. Такая ситуация возможна, например, когда вы не имеете доступа к корневой директории ресурса по FTP и не можете записать в нее файл robots.txt.
В этом случае можно запретить индексацию отдельных страниц сайта иным способом. Для этого в код веб-страницы нужно включить тег МЕТА NAME=«ROBOTS» CONTENT=«NOINDEX».
Если же включить другой тег — МЕТА NAME=«ROBOTS» CONTENT=«NOFOLLOW», робот будет индексировать страниц, но проходить по ссылкам с нее, не будет.
Некоторые SEO « (Search Engine Optimization — « оптимизаторы поисковых систем) даже рекомендуют использовать эти теги вместо запретов в robots.txt, поскольку они имеют больший вес для поисковых роботов.
Содержимое файла robots.txt робот может проигнорировать, а вот такой тег он обработает обязательно.
Карта сайта для поисковиков
Карта интернет-сайта Sitemap.xml, представляющая собой список его разделов со ссылками, поначалу создавалась в формате HTML и использовалась для того, чтобы посетители могли быстро попасть именно на ту страницу, которая им необходима. Теперь же карта создается в основном для поисковых систем. Она особенно важна:
■ для сайтов, которые часто обновляются (блоги, форумы, новостные ресурсы);
■ для тех ресурсов, на которых есть страницы с мультимедийным AJAX-содержанием или изображениями;
■ для сайтов, имеющих множество страниц, плохо связанных друг с другом при помощи ссылок или не связанных вовсе;
■ для новых проектов, на которых пока еще мало внешних ссылок.
Структура файла Sitemap.xml
В отличие от файла robots.txt, карта веб-сайта почти никогда не создается вручную. По крайней мере для больших сайтов очень трудно вручную перечислить все значимые страницы.
Однако любому веб-мастеру не помешает знать структуру этого файла, чтобы при необходимости иметь возможность внести в него правки.
Итак, файл sitemap.xml начинается со следующих строк:
<?xml version=»1.0» encoding=»UTF-8″?>
<urlset xmlns=»http://www. sitemaps.org/
schemas/sitemap/0.9″>
В первой строке указывается кодировка (UTF-8 — обязательное требование для этого файла), во второй идет ссылка на текущий стандарт. Далее перечисляются ссылки.
Для каждой пишется блок команд, которые заключаются в блок <url>. Выглядит это так:
<url>
<loc>http://bugaeff.ru/</loc>
<lastmod>2014-01-12T15:25:56+00:00</
lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority> </url>
Для каждой ссылки обязательным является только тег <loc>, остальные же необязательны, но именно они сообщают поисковым роботам важную информацию о страницах сайта.
Тег <lastmod> содержит сведения о последнем обновлении страницы. Для робота это сигнал не заходить на нее, если он посещал страницу уже после того, как она была обновлена.
Тег <changefreq> сообщает роботу, как часто обновляется страница. Параметр daily означает ежедневное обновление.
Кроме того, существуют параметры yearly (ежегодное), weekly (еженедельное), monthly (ежемесячное), hourly (каждый час) и always (чаще, чем раз в час).
Тег <priority> используется для сообщения поисковому роботу о том, насколько важной является веб-страница. Можно установить разный приоритет — от 0 до 1. Обработав карты сайта, робот в первую очередь проиндексирует страницы с более высоким приоритетом.
Окончание следует.