Что такое индексация веб сайта

Индексация веб сайта — добавление его страничек в каталог или базу данных поисковых систем. Роботы (программы, поисковые боты) регулярно обходят всю сеть в поиске новых страниц. Если найденная страничка соответствует требованиям алгоритма поисковой системы, представляет интерес для пользователей, она индексируется и добавляется в базу.

Задача любого сайтовладельца — добиться, чтобы все страницы проекта были проиндексированы и показывались в результате поиска. Могут отсеиваться странички с копипастом или низкой уникальностью. Если контент дублирует уже имеющийся в поисковой базе, он выпадает из индекса.

Подготовка веб сайта к индексации:

  1. Наполнение всех страничек контентом, полезным для пользователей.
  2. Разумная оптимизация страниц, выполненная с учётом требований поисковых систем.
  3. После размещения проекта на хостинге его сначала тщательно проверяют: код на валидность, правильность открытия всех ссылок внутренней перелинковки.
  4. Проверяют наличие метатегов: тайтлов, кратких описаний, альтов фото и картинок.

Индексация проекта может произвестись быстро или растянуться на несколько месяцев ожидания.

Как ускорить индексацию сайта

Поисковые роботы и сами обнаружат наличие нового проекта в сети. Можно им помочь:

  • Добавить свой проект в основные поисковые системы Yandex и Google, остальные поисковики сами узнают.
  • Составить Sitemap, карту веб-сайта в XML, специально для роботов, включающую список линков на все внутренние страницы. Карта добавляется из кабинета вебмастера в Гугле и Яндексе.
  • Для роботов делают специальный файлик Robots.txt, в котором указывают, что нужно индексировать. С помощью опции Disallow запрещают индексацию отдельных разделов (не предназначенные для пользователя, технические страницы).

Все проиндексированные и выброшенные из индекса странички можно просмотреть в Яндекс.Вебмастере.

Их список следует периодически проверять. Если накопится много дублей страничек, веб-ресурс отправится в бан. Ошибки в коде приводят к росту дублей и обеспечат дополнительную нагрузку на хостинг.

Дубли могут появиться от неудачных экспериментов с кодом, внесения в него изменений, от действий вируса. Неверное использование директивы Disallow порождает закрытые от индексации сайты, владельцы которых не могут понять, почему веб-ресурса нет в индексе.

Для ускорения индексации используют дополнительные методы:

  • кнопки социальных сетей, на которые нажимают пользователи, пожелавшие поделиться полезным контентом,
  • регистрация проекта в системах социальных закладок,
  • использование плагинов, с помощью которых оповещают некоторые полезные веб-ресурсы о выходе новой статьи.

Полезно ссылки на свой ресурс разбрасывать по всей сети. Увидев ссылку, роботы переходят по ней и добавляют новые статьи в свой каталог.

Какие страницы плохо индексируются

На индексацию влияет:

  • чрезмерное число параметров cgi в интернет-адресах URL,
  • длинные адреса, поэтому всем ссылкам придают ЧПУ — удобочитаемый вид,
  • большая численность вложенных директорий,
  • документы размером более 10 МБ не индексируются.

Страницы, далеко отстоящие от главной, на 4–5 шагов, теряют шанс быть проиндексированными и попасть в выдачу.

Плохая индексация веб сайта

Ресурс вообще не индексируется или в индекс попадает мизерное число страниц от общего количества.

Причины:

  • Проект неизвестен поисковым службам.
  • Техническая часть содержит грубые ошибки.
  • Роботы признали веб-ресурс некачественным.
  • Успел за провинность попасть в чёрный список.
  • Весь проект или его часть по какой-то причине недоступны роботам: неверно составлены разрешительные документы, закрытые от индексации страницы сайта.

Массовая индексация производится во время апдейтов поисковой системы. Важно, чтобы проект имел хорошие внешние ссылки, которые приманят робота. Когда он «узнает дорогу», будет периодически заходить и проверять, соответствуют ли странички тем, что добавлены в индекс, попутно захватывая новые.

Из-за многочисленных тегов noindex бот порой не видит уникальный контент, поэтому злоупотреблять тегами для маскировки ссылок не следует.

В чёрный список проект может попасть

  • если владелец приобрёл домен, к которому применялись штрафные санкции,
  • ресурс создан для заработка, а не для пользователей,
  • продвигается методами чёрного СЕО, но ничего интересного собой не представляет,
  • использует запрещённые методы оптимизации: сокрытие или подмену контента,
  • распространяет спам или вирусы,
  • служит аффилатом другого проекта.

Код ответа сервера при обращении к веб-ресурсу — «200» для страничек, наличие которых желательно в индексе. Редирект 302 вместо 301 является ошибкой. Кодировка http-заголовков, мета-тегов и контента должны совпадать.

Самый простой способ привлечения ботов на свой проект — регулярное обновление. Заказать контент для своего проекта можно на биржах копирайтинга, за пару минут создав там аккаунт.

На проекте «Бизнес идеи» легко подобрать различные варианты заработка: