Сегодня я расскажу вам друзья как настроить себя и ваш интернет-ресурс (разумеется, у кого есть сайт, блог или вы работаете над новым ресурсом) на общение с роботом.
Плохо будете общаться с «дядечкой» — неукоснительно приведет вас в лучшем случае к вопросу, задаваемому самому себе — «А чего ко мне мало приходят посетителей, я ведь так стараюсь:( …».
В худшем — ваш сайт робот (читай: программа — поисковик) просто не найдет.
Базовые среды
На заре развития интернета почти все сайты представляли собой набор HTML*-страниц (где в обычном тексте некоторые фразы или абзацы «обрамлялись наподобие этого:<strong>Облачный хостинг</strong>
…).
Как правило, на сайте было навигационное меню, позволявшее быстро попадать на любую страницу ресурса. Поисковым роботам ничего не стоило просканировать такой сайт — дело в том, что число страниц было невелико и к тому же они объединялись ссылками.
С распространением CMS (Content Management Software, то есть программное обеспечение для управления содержимым, а попросту говоря — движок сайта) структура веб-сайтов изменилась.
Во-первых, существенно возросло число файлов (например, у меня здесь на блоге в целом около 150000 файлов!): для работы движка требуются сотни документов, и большинство из них не содержат никакого контента, поэтому для индексации в поисковиках они не нужны.
Текстовое содержимое веб-сайта стало храниться в базе данных и выдаваться по запросу. Именно поэтому на современном сайте возможно наличие нескольких страниц с одинаковым контентом.
Поисковому роботу зачастую бывает трудно разобраться в тысячах однотипных страниц, поэтому он может прекратить сканирование, не дойдя до конца. При этом важный контент может остаться непроиндексированным, а второстепенный — попасть в индекс три раза на разных веб-страницах.
Как этого избежать? Нужно помочь роботу определить, какие страницы на сайте сканировать не нужно, а какие, наоборот, стоит добавить в индекс.
Для общения веб-мастера (так принято называть продвинутого пользователя, знакомого с HTML или без оного, но жаждущего всё это освоить) с поисковыми системами используются два файла: robots.txt и Sitemap.xml.
Первый из них содержит инструкции относительно того, что индексировать не требуется, а второй — подсказывает роботу, что на сайте есть новенького и интересного.
О том, как создавать такие файлы и как грамотно их использовать, и пойдет речь в данном посте.
Когда поисковый робот заходит на сайт, первым делом он ищет в корневой директории файл robots.txt — это простой текстовый файл, в котором хранятся указания для роботов относительно того, какие страницы сайта нужно индексировать, а какие — нет.
Зачем роботу нужно давать эти указания? Во-первых, на сервере могут храниться конфиденциальные данные, попадание которых в поисковый индекс нежелательно.
Во-вторых, на нем сохраняются логи, кеш, временные файлы, файлы движка, которые для всех, кроме веб-мастера, являются мусором.
В-третьих, структура сайта может быть такова, что одно и то же содержимое будет встречаться на разных страницах. Поисковые системы не любят повторений, поэтому лучше всего запретить индексировать идентичный контент.
Наконец, возможно, ваш сайт создан для ограниченной группы лиц и вам не нужны гости из поисковиков — в таких случаях при помощи файла robots.txt можно вообще запретить индексацию сайта — тогда в поисковой выдаче он не появится.
Для создания файла robots.txt обычно используются специализированные программы и сервисы, но даже если, ни одного из подобных инструментов нет под рукой, файл всегда можно написать в текстовом редакторе.
Подойдет как стандартный «Блокнот», так и его более продвинутая версия для вебмастеров — Notepad++
Файл robots.txt может появиться на вашем сервере автоматически — вместе с установкой популярной CMS. Но это вовсе не означает, что в нем учтены все особенности сайта.
Скорее всего, разработчики CMS внесли в него запрет на доступ к тем каталогам, в которых содержатся служебные и временные файлы. Иными словами, часть работы они за веб-мастера выполнили, но довести robots.txt до ума предстоит для каждого сайта вручную.
Кстати, в интернете можно найти множество примеров этого файла для популярных CMS, где учтены особенности структуры таких сайтов.
* базовая среда, в которой размещаются все остальные компоненты бескрайнего Web — пространства
Продолжение следует.