например: кворум
Антон Николаев
Бесплатный курс обучения "Продвижение сайтов для начинающих". Обучение с акцентом на алгоритмы поисковых систем и бесплатные SEO инструменты.
> как учиться > 25. индексация
Лекция 1: Начинаем знакомство с поиском (13 мин.)Лекция 2: Внутри поисковой системы: от запроса до выдачи (18 мин.)Лекция 3: Поисковые системы и слова (в тексте, HTML коде), назания за СПАМ (14 мин.)Лекция 4: Оптимизация, переоптимизация и качество текста (13 мин.)Лекция 5: Поисковые системы и ссылки (16 мин.)Лекция 6: Сервисы с собственными базами ссылок и параметры ссылок (19 мин.)Лекция 7: Сервисы (2) с базами ссылок и новые типы ссылок (19 мин.) Лекция 8: Сервисы (3) с базами ссылок и новые атрибуты ссылок (19 мин.)Лекция 9: JavaScript и новые типы ссылок. Внутренние ссылки. (30 мин.)Лекция 10: Поисковые системы и поведение пользователей (36 мин.)Лекция 11: Поведение пользователей и технические параметры (24 мин.)Лекция 12: Формула и факторы ранжирования поисковых систем (40 мин.)Лекция 13: Создаем сайт под продвижение - запросы пользователей (50 мин.)Лекция 14: Пример ручного создания семантического ядра (32 мин.)Лекция 15: Сервисы для создания семантического ядра - 1 (35 мин.)Лекция 16: Сервисы для создания семантического ядра - 2 (16 мин.)Лекция 17: Кластеризация, отбор запросов и контент посадочной страницы (26 мин.)Лекция 18: Сервисы и инструменты - кластеризаторы (23 мин.) Лекция 19: Три типа посадочных страниц и контент для них (23 мин)Лекция 20: Контент посадочных страниц и сниппет (45 мин)Лекция 21: Методы контроля и оценки результатов продвижения (26 мин.)Лекция 22: Коммерческие сервисы для контроля продвижения сайта (29 мин.)Лекция 23: Получили в продвижение старый сайт (21 мин.)Лекция 24: Выявляем и устраняем проблемы скорости загрузки (19 мин.) Лекция 25: Проблемы с индексацией, дубли и переспам (19 мин.)Лекция 26: Увеличиваем SEO трафик - подбор запросов близких к ТОПу (35 мин.)Лекция 27: Увеличиваем SEO трафик - расширяем запросы по конкурентам (16 мин) Лекция 28: Естественный ссылочный профиль (21 мин.)Лекция 29. Ссылочный профиль по методам получения ссылок (14 мин.)Лекция 30: Традиционные SEO методы наращивания ссылочной массы (42 мин.)Лекция 31. Воронка продаж, SEO воронки и удовлетворенность пользователя (29 мин.)Лекция 32. Поведение посетителей, цвет и дизайн (24 мин.)

Урок 25: Проблемы с индексацией, дубли и переспам (19 мин.)

В этом уроке: Индексация страниц в Яндексе и Google и причины неиндексации. Карта сайта sitemap.xml и robots.txt. Disallow и Clean-param. Проверяем страницы сайта на наказания за дублирование контента, спам, малоценные, маловостребованные и недостаточно качественные страницы. Наиболее частые фильтры поисковых систем и инструменты проверки на фильтры от tools.pixelplus.ru, arsenkin.ru и seowizard.ru
смотреть видеолекцию:

КОНСПЕКТ УРОКА:

На прошлом уроке мы с вами говорили о технической базе сайта и о том, какие могут быть общие проблемы, принципиально мешающие продвижению сайта.

Считаем, что вы все их устранили и переходим к увеличению SEO трафика.

К вам поступил старый сайт, который имеет некоторый трафик. Он имеет трафик за счет проиндексированных страниц в Яндексе и Google. Страниц, которые не проиндексированы поисковыми системами трафика не приносят. И это ваш первый ресурс для роста трафика.

Проверяем индексацию страниц сайта в Яндексе.

Начнем с Яндекса. Переходим в Яндекс Вебмастер, раздел "Индексирование", подраздел "Страницы в поиске". Здесь нас интересуют те страницы, по которым робот Яндекса прошелся, но в базу Яндекса не включил - не проиндексировал. Вот график по количеству этих страниц за указанный период времени, а также причины, по которым эти страницы не проиндексированы:

- "Редирект";
- "Дубль" - дублируется контент страницы;
- "Неканоническая" страница - это значит, что на странице указано что канонической для нее считать другую, хотя контент может отличаться и это уже повод посмотреть, что там за такая страница;
- "Недостаточно качественная" вот одна страница по этой причине не попала в Яндекс и нужно ее смотреть и с ней разбираться;
- "Ошибка HTTP" - скорее всего страницы отсутствуют, возможно они когда-то были на сайте - теперь их нет;
- "Не удалось скачать страницу" (почему? разбираться...);
- "Запрет в robots.txt;
- "Статус неизвестен";
- "Исключено по Clean-param (это мы будем разбирать чуть позже).

Чтобы посмотреть непосредственно список исключенных страниц кликаем сюда и видим список вот в таком формате. В качестве примера оставлена одна строка, интересная тем, что страниц исключена из индекса потому что признана малоценной или маловостребованной страницей. Если такая одна страница - можно поработать над повышением её качества.

Вот этот страничный адрес возник за счет передачи GET параметров, которые явно некорректны. Возможно, результат попытки взлома сайта или программной ошибки. Такой адрес движком сайта не предусмотрен и там либо отсутствует контент, либо он дублирует контент этой страницы без параметров. С такими страницами нужно разбираться.

Дальше переходим в раздел "Диагностика - Диагностика сайта". И здесь мы видим списки проблем, по которым Яндекс Вебмастер проверяет наш сайт. В данном случае с сайтом все хорошо - напротив всех пунктов написано "Все в порядке".

Посмотрите на список возможных проблем:
- "Долгий ответ сервера";
- "Найденны страницы-дубли с GET-параметрами";
Вам нужно проверить ваш сайт на наличние проблем и устранить их.

Возможные проблемы, которые не столь критичны (в отдельном разделе) в основном связаны с дублированием. Либо дублирование контента, либо дублированием на нескольких страницах одинаковых тайтлов или дескрипшн.

Всё это является причинами, по которой Яндекс может не индексировать страницу.

Индексация и карта сайта Sitemap.xml

Для того, чтобы сообщить поисковым системам обо всех страницах на сайте используется специальный файл sitemap.xml

Это текстовый файл в формате xml. Посмотрите здесь, в принципе, все понятно:
- есть блок выделенный тегами url, в котором вот этой строчке указан адрес страницы сайта;
- здесь указано, насколько часто мы хотим, чтобы поисковая система посещал эту страницу отслеживая изменения;
- какой приоритет у этой странице для частого посещения роботами поисковых систем перед другими страницами сайта (теоретически, более приоритетные страницы могут быть чаще посещаемые роботом поисковой системы).

В Яндекс Вебмастере можно проверить, насколько карта сайта доступна роботу. Мы идем в раздел "Инструменты - Анализ файлов sitemap" и здесь вводим адрес нашей карты сайта и нажимаем проверить. И если все нормально получаем сообщение, что ошибок не найдено. В принципе там могут быть и ошибки, поэтому получив сайт в продвижение - проверьте.

В разделе "Индексирование - Все страницы" вы можете скачать архив всех страниц известных Yandex на основании Sitemap и здесь вы увидите:
- технический код ответа сервера по каждой странице (код 200 значит, что страница отдается корректно)";
- а также статус страницы, например, что она исключена из индекса в связи с низким качеством.
В этом случае вам нужно разбираться с каждой низкокачественной страницей - нужна она вам для каких-то запросов или нет, можно ли там подтянуть качество. Но это стоит делать только тогда, когда вы уже сформируете свой список запросов для продвижения.

Еще один инструмент в Яндекс Вебмастер - "Индексирование - Статистика обхода", где вы можете посмотреть последнюю информацию по тому, какую страницу недавно посетил робот Яндекса и какой статус ответа на данный момент. В данном примере вот эта страница имеет 301 редирект. На старом сайте надо посмотреть, куда и зачем тут поставлен редирект.

Когда вы работаете над новыми страницами на сайте и хотите чтобы они быстрее здесь оказались в индексе Яндекса, вы можете добавить их вот здесь в разделе "Индексирование - мониторинг важных страниц". Они будут отслеживаться в особом порядке.

Что здесь интересного:

Вот новая страница добавлена, но статус у неё "Недостаточно качественная". Т.е. есть Яндекс индексировать её не хочет.

У тех страниц, которые Яндекс проиндексировал - статус "Находятся в поиске" и по ним даны основные параметры:
- адрес страницы;
- тайтл;
- дескрипшн;
- какая страница для этой страницы считается канонической.

Проверяем индексацию сайта в Google

Переходим в Google Search Console, раздел "Покрытие". Здесь много похожего.

Обратите внимание на запись, что в данном случае 81 страница проиндексирована несмотря на блокировку файле robots.txt.

Индексация и Robots.txt

Robots.txt это еще один текстовый файл для управления поведением поисковых систем на вашем сайте. Файл в простом текстовом формате.

Давайте разбираться, что здесь написано построчно:
- "User-agent: *" - это значит "для всех поисковых систем";
- Эта строка значит "запрещено индексировать любые файлы и любые разделы, в названии которых есть слово test", то есть эти файлы и разделы созданы для тестирования, а не для посетителей сайта. В данном случае звездочка перед "тест" обозначает, что здесь может быть любое количество любых других символов. Поэтому, где бы в адресной строке не встретился "тест" - индексировать запрещено. Хотя, как вы видели на предыдущем экране, Google все-таки проиндексировал 81 страницу с таким запрещением.
- Эта строка для запрета индексации административного раздела системы управления сайтом. Всё, что находится в этой рубрике запрещено для индексации.
- Обратите внимание на такую запись. В данном случае запрещены к индексации все адреса, в которых есть параметр amp с любым значением. Причем он может быть как первым параметром после знака вопроса, так и в списке других параметров, переданных GET.
- Посмотрите сюда. Мы с вами ранее уже упоминали, что на Яндексе есть свой инструмент для неучета неважных параметров в url. Он называется Clean-param. Здесь указаны неважные параметры через знак ampersand: это параметры id_vitrin и coord. Если эти параметры будут в адресной строке, то для Яндекса их как бы не будет, и их наличие не будет создавать новый страницный адрес. Этот механизм используется, если вам не нужно при извинении этих параметров получать новую страницу в Яндексе.

Теперь переходим в раздел "Удаления" - здесь мы видим удаленные страницы из базы Google, аналогично тому как видели в Яндекс Вебмастере для Яндекса. В колонках: "Статус" - исключено и "Тип" - причина исключения страницы из индекса.

В этой строке, за счет условий в robots.txt исключено 5000 страниц, которые, например, которые были сгенерированы с большим количеством различных параметров и которые здесь не нужны.

А в этой строке - ошибка сканирования и нужно разбираться, почему робот не смог получить некую страницу.

Здесь страницы отсутствуют, потому что не канонические.

Эта страница является копией, но при этом канонический вариант для неё не был указан. С такими страницами нужно разбираться - почему для дубля не был указан канонический вариант страницы.

Индексация и фильтры поисковых систем Яндекс и Google

Теперь поговорим про наиболее часто встречающиеся наказания - фильтры, который накладывают поисковые системы . Некоторое время назад был проведён опрос в закрытой группе seo оптимизаторов на тему: с какими фильтрами им чаще всего приходится сталкиваться. Как вы видите, наиболее часто встречающиеся фильтры - это текстовые фильтры Яндекса: "переспам", "переоптимизация", "баден-баден". Все эти фильтры связаны с излишним количеством ключевых слов запросов в текстах страницы. Наказания могут накладываться: на конкретный запрос, на конкретную страницу или на сайт в целом.

При таких ошибках в Яндекс Вебмастере может появиться сообщение типа того, что вы видите на экране: "Использование SEO-текстов: Позиции сайта в результатах поиска пониженный" и "Переоптимизация: Позиции сайта понижены".

Но не всегда. При небольших нарушениях на уровне отдельного запроса или страницы сообщения могут отсутствовать, а позиции по конкретному запросу понижаться. Для выявления этих случаев придется пользоваться сторонними сервисами.

Инструменты проверки на текстовые фильтры Яндекса

Начнем с замечательного набора инструментов от Пиксельплюс.

Здесь есть иструмент раздел "Санкции и фильтры - Расширенная проверка на наличие фильтра Переоптимизация в Яндексе" в котором вы можете проверить полученный сайт на переоптимизацию и переспам. Вводите до 50 запросов и такая вот итоговая табличка в которой:
- запрос из вашего списка;
- релевантная страница в Яндексе;
- её позиция в выдаче;
- вероятность наличия фильтра на нем;
- а также рекомендации для тех страниц, на которых предполагается фильтр.

В этом же разделе есть и еще один инструмент "Комплексная проверка на фильтры Яндекса", который работает по одному запросу. Вводите запрос, свой сайт, регион. Определяется: релевантный url по выдаче и вот такое сообщение с проверкой на несколько фильтров.

Второй инструмент проверки на постфильтр Яндекса переоптимизация - от Арсенкина.
Вы вводите здесь свои запросы, указывайте регион сайта и получаете вероятность наличия текстового фильтра на соответствующих запросам страницах своего сайта. Обратите внимание, что здесь специально указано: "при высокой вероятности фильтра - это необязательно текстовый фильтр", это может быть фильтр по какой-то другой причине. Например, поведенческий.

Кстати, показанная в примере проблема ушла без работы с текстом - только за счет коррекции поведенческих факторов: после ускорения движка сайта и очередного усиления борьбы Яндекса с наркутками. Данный запрос активно накручивался конкурентами, понижая остальных - и страница попала под раздачу.

Перед вами сравнение результатов оценки на наличие текстового фильтра этих двух инструментов по двум запросам и страницам. Верхняя табличка от Пиксельплюс, а нижняя табличка от инструмента Арсенкина.

Как вы видите, высокую вероятность нахождения под фильтром указали оба инструмента. Но степень вероятности расходится. В любом случае это полезная информация для вас, чтобы предположить, что на этих страницах есть проблемы. И если вам нужен этот запрос, то необходимо поработать с этими страницами - переписать текст и уменьшить количество включений слов запросов.

В инструменте от Пиксельплюс можно получить рекомендации по исправлению текстов на проблемной странице. Однако доверять им нельзя. Посмотрите на экран:
- левая табличка - список запросов, которые инструмент от Пиксельплюс рекомендует убрать с этой страницы, чтобы снять переоптимизацию;
- правая табличка - список запросов, который другой инструмент (аудит сайта) от Пиксельплюсь рекомендует добавить на эту страницу, указывая на недостаточную оптимизацию по точному вхождению фраз запросов.
Как вы видите, 99% этих фраз присутствуют в обоих списках: и на добавление, и на удаление.
Поэтому реализовать эти рекомендации невозможно.

Еще один инструмент который, показывает вам возможный переспам в текстах страниц - Сеовизард. Здесь можно настроить извещения о различных событиях и проблемах на сайте:
- обнаружен redirect;
- обнаружен дубль страницы;
- по запросу в Яндекс (Google) нйдена другая страница, чем продвигается.
И вот такие сообщения будут регулярно вам приходить. В частности, вот здесь указано, что текст этой страницы "вероятно переспамлен".

Предыдущая лекция 24: Выявляем проблем со временем загрузки и скоростью работы сайта с помощью Яндекс, Google, View Original Trace, tools pixelplus, redirectdetective, ahrefs Следующая лекция 26: Быстро увеличиваем SEO трафик по запросам и страницам близким к ТОПу (promopult, megaindex, seowizard, rookee)