Индексация веб-сайта

Сегодня я расскажу вам друзья как настроить себя и ваш интернет-ресурс (разумеется, у кого есть сайт, блог или вы работаете над новым ресурсом) на общение с роботом.

Плохо будете общаться с «дядечкой» — неукоснительно приведет вас в лучшем случае к вопросу, задаваемому самому себе — «А чего ко мне мало приходят посетителей, я ведь так стараюсь:(  …».

В худшем — ваш сайт робот (читай: программа — поисковик) просто не найдет.  

Базовые среды

На заре развития интернета почти все сайты представляли собой набор HTML*-страниц (где в обычном тексте некоторые фразы или абзацы «обрамлялись наподобие этого:<strong>Облачный хостинг</strong>
 …).

Как правило, на сайте было навигационное меню, позволявшее быстро попадать на любую стра­ницу ресурса. Поисковым роботам ничего не стоило просканировать такой сайт — дело в том, что число страниц было невелико и к тому же они объединялись ссылками.

С распространением CMS (Content Management Software, то есть программное обеспечение для управления содержимым, а попросту говоря — движок сайта) структура веб-сайтов изменилась.

Во-первых, существенно возрос­ло число файлов (например, у меня здесь на блоге в целом около 150000 файлов!): для работы движка требуются сотни документов, и большинство из них не содержат никакого контента, поэтому для индексации в поисковиках они не нужны.

Тек­стовое содержимое веб-сайта стало хранить­ся в базе данных и выдаваться по запросу. Именно поэтому на современном сайте воз­можно наличие нескольких страниц с одина­ковым контентом.

Поисковому роботу зачастую бывает трудно разобраться в тысячах однотипных страниц, поэтому он может прекратить сканирование, не дойдя до конца. При этом важный контент может остаться непроиндексированным, а второстепенный — попасть в индекс три раза на разных веб-страницах.

Как этого избежать? Нужно помочь роботу определить, какие страницы на сайте скани­ровать не нужно, а какие, наоборот, стоит до­бавить в индекс.

Для общения веб-мастера (так принято называть продвинутого пользователя, знакомого с HTML или без оного, но жаждущего всё это освоить) с поисковыми системами используются два файла: robots.txt и Sitemap.xml.

Первый из них содержит инструкции относительно того, что индексировать не требуется, а второй — под­сказывает роботу, что на сайте есть новенько­го и интересного.

О том, как создавать такие файлы и как грамотно их использовать, и пойдет речь в данном посте.

Когда поисковый робот заходит на сайт, пер­вым делом он ищет в корневой директории файл robots.txt — это простой текстовый файл, в котором хранятся указания для роботов от­носительно того, какие страницы сайта нужно индексировать, а какие — нет.

Зачем роботу нужно давать эти указания? Во-первых, на сервере могут храниться конфиденциальные данные, попадание которых в поисковый ин­декс нежелательно.

Во-вторых, на нем сохра­няются логи, кеш, временные файлы, файлы движка, которые для всех, кроме веб-мастера, являются мусором.

В-третьих, структура сайта может быть такова, что одно и то же содержи­мое будет встречаться на разных страницах. Поисковые системы не любят повторений, по­этому лучше всего запретить индексировать идентичный контент.

Наконец, возможно, ваш сайт создан для ограниченной группы лиц и вам не нужны гости из поисковиков — в таких случаях при помощи файла robots.txt можно вообще запретить индексацию сайта — тогда в поисковой выдаче он не появится.

disallowДля создания файла robots.txt обычно используются специализированные программы и сервисы, но даже если, ни одно­го из подобных инструментов нет под рукой, файл всегда можно написать в текстовом ре­дакторе.

Подойдет как стандартный «Блокнот», так и его более продвинутая версия для веб­мастеров — Notepad++

Файл robots.txt может появиться на вашем сервере автоматически — вместе с установкой популярной CMS. Но это вовсе не означает, что в нем учтены все особенности сайта.

Скорее всего, разработчики CMS внесли в него запрет на доступ к тем каталогам, в которых содер­жатся служебные и временные файлы. Иными словами, часть работы они за веб-мастера выполнили, но довести robots.txt до ума предстоит для каждого сайта вручную.

Кстати, в ин­тернете можно найти множество примеров этого файла для популярных CMS, где учтены особенности структуры таких сайтов.

* базовая среда, в которой размещаются все остальные компоненты бескрайнего Web — пространства

Продолжение следует.



Понравилась статья? Поделиться с друзьями: