Проверить индексацию сайта в поисковиках: Sorry, this page can’t be found.

Содержание

Проверка индексации страниц сайта в поисковых системах Яндекс и Google — ROMI center

Что это такое

релевантности и распределения контента по разделам. Роботам важно понять, насколько представленная информация ценна для пользователя, который ввёл запрос в поисковую строку. Именно релевантность сайта запросу и позволяет выявить поисковая индексация сайта. 

Как настроить свой ресурс для высоких позиций в поисковой выдаче и как проверить все показатели? Обо всём этом расскажем далее.

Как проходит индексация сайта

Как только появилась глобальная Cеть, поисковые системы обзавелись фильтрацией результатов запросов. В те времена и появилась индексация сайта по ключевым словам. Проверка индексации страниц сайта делалась просто — чем больше ключей находил на нем поисковик, тем выше был ресурс в выдаче. Для ускорения индексации сайта и его продвижения на топовые позиции достаточно было добавить туда побольше популярных фраз. Такой метод оценки привёл к тому, что на первых строках результатов поиска появлялись совершенно бесполезные страницы, сплошь и рядом заполненные необходимыми словоформами. И это был текст не для клиентов, а для роботов. Ведь живой человек просто закроет такой «продвинутый» сайт и пойдёт искать ресурс, где информация читабельна и понятна. 

С тех пор многое изменилось. Поисковые роботы научились оценивать сайты не только по ключевикам, но и по другим параметрам для получения наиболее релевантных данных и ранжирования в выдаче. 

Сегодня процесс индексирования сайта состоит из трех этапов: сканирование, анализ и выдача результатов.

  • Сканирование: поисковая система запускает программу, называемую «пауком», для поиска контента в Сети.
  • Анализ: поисковая система анализирует найденный контент, чтобы определить, о чем он. Затем упорядочивает его.
  • Выдача: когда пользователь вводит запрос, поисковая система делает проверку индексации сайта по ключевым словам. Затем на основе этого составляется список результатов индексации, который и отображается на странице результатов поиска. 

Так алгоритмы поисковиков составляют индекс и ищут только нужные страницы.

Алгоритм отвечает за то, как проверить индексацию сайта, и анализирует ряд уникальных характеристик каждой индексируемой веб-страницы. Это помогает поисковикам отображать наиболее релевантные страницы в ответ на запрос пользователя. 

Мало кто знает реальные алгоритмы поисковых систем. Основной механизм держится в секрете, иначе работа поисковиков может быть парализована. И в ответ на запрос пользователя будут выдаваться результаты, далекие от того, что человек действительно ищет. Поэтому нет волшебных рецептов, как узнать тонкости индексации сайта и как гарантированно вывести страницы на первые места в выдаче. 

Главное, что нужно знать: позиция отображения ресурса зависит исключительно от его качества. Для улучшения индексации большинству русскоязычных сайтов достаточно учесть особенности алгоритмов двух основных поисковиков: Google и Яндекс. Рассмотрим самые распространённые вопросы о прохождении индексации.

Как происходит автоматическая проверка

Индексирование — процесс, с помощью которого поисковый робот обнаруживает новые и обновленные страницы для добавления в индекс. Если робот не может просканировать страницу, то проверить индексацию сайта не получится. 

Автоматическая индексация сайта в поисковых системах происходит при помощи механизмов, которые самостоятельно находят ресурс и анализируют его контент, релевантность информации, ссылки, трафик, время визитов пользователей и многое другое. Началу прохождения такой проверки способствует наличие ссылок на сайт на других ресурсах.

Проверка уровня индексации вашего сайта в поисковых системах

Проверить индексацию страницы можно:

1. При помощи поисковой строки, добавив к домену сайта символы «site:».

2. Специальными сервисами, например RDS Bar или XSEO.in.

Также проверить индексирование сайта можно встроенными инструментами Яндекс.Вебмастер и Google Search Console. Они помогают провести проверку индексации страницы в Яндексе и Гугле в полуавтоматическом режиме.

  • В Google Search Console — это инструмент тестирования URL Inspection Tool. С его помощью можно просмотреть HTML-код целевой страницы и убедиться, что поисковый робот Googlebot может получить доступ к содержанию. Это полезно для тестирования страниц, генерируемых JavaScript, если ваш сайт построен на платформе JS. Инструмент предоставит моментальный снимок того, как отображается страница, и сообщит обо всех ошибках, которые могут отрицательно повлиять на возможность сканирования.
  • В Яндекс.Вебмастере есть схожий сервис тестирования «Проверить статус URL». Находится он в меню «Индексирование». Задав нужный сайт, можно увидеть полный отчет по нему — от статуса в поиске до последнего посещения робота.

Сколько времени индексируется новый сайт

Сколько занимает проверка — зависит от поисковой системы. Google является скоростным лидером в данном процессе, управляясь с индексацией примерно за одну неделю. Время индексации в Яндексе может быть больше — до двух-трех недель. 

Скорость, с которой поисковик заметит ресурс зависит от множества параметров, поэтому указанные сроки весьма условны. Например, дополнительные страницы уже проиндексированного сайта рассматриваются быстрее.

Как проверить количество страниц в индексе

Чтобы узнать, сколько страниц сайта проиндексировано Яндексом, перейдите по ссылке. Для аналогичного мониторинга в Google необходимо ввести в поисковую строку значение site: домен сайта. Например, site:moisait.ru

Что значит переиндексация сайта

Переиндексация — это повторный анализ страниц, который проводят роботы поисковых систем. Как часто происходит данный процесс? Во многом это зависит от регулярности обновлений. Чем чаще на сайте появляется новая информация, тем с большим вниманием поисковик рассматривает ресурс. О прочих лайфхаках для ускорения индексации поговорим далее. 

Как проверить сайт на запрет индексации

При индексации сайта могут возникнуть проблемы, которые требуют оперативного устранения. Это нужно для успешного прохождения проверки и отображения в поиске. 

Яндекс.Вебмастер и Search Console содержат разделы, в которых можно посмотреть проблемы, найденные на ресурсе. Например, система может сделать запрет на индексацию страниц за нарушение правил безопасности или за отсутствие подтверждённого домена. 

Последствия запрета индексации части сайта отразятся на показах этих страниц. Пользователь просто не увидит их, когда введёт в поисковик целевой запрос. 

Как открыть сайт для индексации, скрыв отдельные страницы

Однако иногда часть страниц требуется закрыть от индексации преднамеренно, прописав их в файле robots.txt. Вот для каких страниц это может пригодиться:

  1. Дублированные страницы.
  2. Страницы, находящиеся в разработке.
  3. Технические разделы, которые необходимо скрыть.

Во-первых, запретить индексацию специально можно путём указания имени нужного файла или папки в файле robots.txt:

User-agent: *
Disallow: /folder/file.ph
Disallow: /folder/ 

Системы не смогут проверить noindex и nofollow, поэтому второй вариант скрытия ненужного контента — это указание данных тегов.

Как запретить индексацию сайта полностью

Иногда требуется полностью удалить сайт из базы данных поисковых систем. Для это необходимо прописать в robots.txt значение: 

User-agent: *
Disallow: / 

Если же сайт не индексируется, когда нужно, стоит в первую очередь проверить этот же файл. Возможно, во время проведения каких-то работ на ресурсе его временно скрыли от посторонних взглядов. И забыли вернуть все как было. 

Индексация Яндекс и Google: что важно учесть

Помимо регистрации в Яндекс.Вебмастер и Search Console необходимо проверить карту сайта — sitemap.xml, а также указать необходимые параметры индексации в файле robots.txt.

По регистрации в системах часто встречаются 2 основных вопроса: индексация сайта в Google, как это сделать вручную, и почему Яндекс не индексирует сайт. 

Чтобы ускорить процесс проверки, необходимо внести ресурс в сервис Google Search Console. Остальное система сделает сама.

Яндекс сканирует ресурсы медленнее, чем Google. Для получения заветной отметки в базе данных нужно зарегистрироваться в Яндекс.Вебмастер. 

Как ускорить индексацию

Индексирование сайта — это целый ряд процессов, повлиять на которые возможно, улучшив качество ресурса. Как проверить, достаточно ли хорош сайт с точки зрения поисковых роботов и ускорить индексацию сайта в Яндексе и Гугле? Основные 2 правила: проведите индексацию сайта так, чтобы там был качественный контент, и обеспечьте удобство ресурса для пользователей.

Также возьмите на вооружение ниже перечисленные пункты — применив их на практике, вы обеспечите видимость сайта в поисковых системах.

  • Публикуйте новости регулярно, так как поисковые боты ценят частое обновление контента.
  • Корректно заполните файл sitemap.xml. Перечислите в нем все страницы сайта, чтобы поисковые системы могли их найти.
  • Проверьте файл robots.txt. Там не должно быть блокировок поисковых систем от сканирования страниц сайта, в частности тегов noindex и nofollow.
  • Включите внутреннюю перелинковку и добавьте внешние ссылки. Ведь индексация ссылок — краеугольный камень SEO.
  • Проверьте сайт на так называемые страницы-«сироты». Если на странице нет никаких внутренних ссылок, это затрудняет ее поиск пользователями и роботами.
  • Проведите проверку индексации сайта в Яндекс и Гугл с помощью инструментов для веб-мастеров и устраните все выявленные проблемы.
  • Проверьте контент сайта и включите в него ключевые слова, по которым необходимо отображаться. 

Отдельным пунктом оптимизации для индексирования стоит выделить дубли. Это наиболее частый источник проблем. Дублированный контент — когда на сайте есть несколько страниц с одинаковым или похожим содержанием, не менее 70% совпадений. Когда поисковые системы обнаруживают такой контент, это создает путаницу в отношении того, какую версию страницы индексировать. В конечном итоге поисковая система выбирает вариант, который, по ее мнению, является лучшим. И отфильтровывает остальные. Таким образом 2 похожие страницы на сайте конкурируют между собой за одни и те же поисковые запросы.

Существует несколько способов решения и предотвращения проблем с дублированным контентом. Вот самые распространенные: 

  • Тег «rel=canonical» в HTML-коде нужной страницы, чтобы показать, какая версия является предпочтительной.
  • Редирект 301 на «вторичной» странице, чтобы перенаправить посетителей на предпочтительную версию.
  • Только одна версия сайта — с www либо без www в адресе, но не обе сразу. Использование обеих создает дубликат всего веб-сайта.
  • Уникальные URL-адреса, поскольку линки с разными регистрами написания считаются повторяющимся содержимым. 

Чтобы найти дублированный контент на своем сайте, можно использовать специальные сервисы, например, Siteliner. 

Последнее, на что нужно обратить внимание для ускорения индексации сайта, это протокол передачи данных, который использует сайт. Поисковые системы, особенно Google, стремятся к созданию более безопасного веб-интерфейса для пользователей. Поэтому рекомендуют веб-мастерам использовать шифрование HTTPS вместо привычного протокола передачи данных HTTP. На него можно перейти, установив действующий сертификат безопасности сайта SSL. Для Google это особенно хорошо работает, так как система повышает скорость индексации и рейтинг сайтов, использующих HTTPS. При этом страницы с HTTP помечаются как «небезопасные», чтобы предупреждать пользователей.

Ускорение индексации сайта поисковыми системами: подробная инструкция


Перед тем, как поисковики включат статьи и товары с продвигаемого вами сайта в выдачу по запросам пользователей, страницы должны пройти через процесс индексации. Что такое индексация сайта? Она заключается в обходе ресурса поисковыми роботами. Они представляют собой специальные программы для посещения сайтов. Их задача заключается в считывании контента. Впоследствии найденные тексты будут добавлены в базу данных поисковой системы (ПС). Задача этой базы — обрабатывать и хранить текстовые материалы и другой контент всех проиндексированных сайтов. От скорости и полноты проведения индексации зависит широта представления сайта в поисковой выдаче, высота занимаемой позиции и, в конечном итоге — количество посетителей.


О том, как правильно настроить индексацию в Яндекс и Google рассказываем в этой инструкции.

Какую информацию собирают роботы


Индексация сайта в поисковых системах — это больше, чем просто копирование информации с ваших страниц в базу поисковой машины. Для того, чтобы в результаты поиска попадала только важная для пользователя информация, роботы осуществляют фильтрацию содержимого, удаляя все лишнее: рекламу, элементы навигации и одинаковые для всех страниц блоки. Также выясняется структура документа (разделы, подзаголовки), проводится семантический разбор текста, для определения его релевантности тем или иным запросам.


У роботов есть и специализация: некоторые отвечают за текстовый контент для основной и «быстрой» выдачи (как правило — для новостных сайтов), другие — за картинки для разделов ПС (Яндекс.Картинки и аналогичный сервис у Гугла). Существуют и специализированные алгоритмы для слежения за ссылочным профилем, оценки мобильных версий сайтов и медиа-контента.

Как страницы попадают в индекс


Перед тем как начнется индексация в Гугл, Яндекс и других поисковиках, каждая ПС должна получить сведения о появлении нового ресурса. О существовании страницы можно узнать несколькими способами:

  1. Перейдя по ссылкам на просматриваемом сайте. Чем больше исходящих ссылок ведут на документ, тем больше шансов, что он будет проиндексирован в приоритетном порядке.
  2. XML-документ со специальной разметкой — карта сайта, является источником ссылок, с которым будут сверяться роботы при планировании обхода.
  3. Информация полученная из систем аналитики Яндекс Метрика и Google Analytics также учитывается при планировании обходов. При подключении этого функционала данные о странице будут отправляться напрямую в сервис индексации как только кто-то откроет на сайте неизвестный ранее ПС документ. Единственное требование к нему — он обязательно должен содержать код отслеживания.
  4. Автор сайта может самостоятельно отправить страницу на индексацию, воспользовавшись специальной формой в панели управления сервисами ПС.

Управление индексацией


Несмотря на то, что индексация страниц полностью автоматизирована, от усилий вебмастера зависит полнота и скорость этого процесса.

Добавление сайта


Первый шаг всегда заключается в добавлении сайта в специализированные сервисы ПС. Вебмастер — для Яндекс и Search Console для Гугл.


Добавление сайта в Вебмастер выполняется в несколько простых шагов:


Если сайт работает по HTTPS, указывайте домен вместе с протоколом:


Второй этап — подтверждение прав на домен. Необходимо воспользоваться одним из предложенных способов. Самый простой из них — скачать html-файл и разместить его в корне сайта.


Индексация сайта в Яндекс начнется в течение нескольких дней после добавления домена. Первые результаты, включая данные о количестве проиндексированных страниц, станут доступны после следующего обновления поисковой базы.


Для Google Search Console процесс выглядит схожим образом:


Единственное отличие заключается в возможности добавить сразу все ресурсы на домене (мобильные версии сайтов, все протоколы и поддомены), но для этого нужно иметь доступ к редактированию записей NS-сервера, что возможно далеко не у каждого хостера.

Файл robots.txt


Этот простой по своей структуре файл позволяет управлять поведением роботов. С его помощью можно как исключить сайт из поиска и полностью запретить индексацию сайта, так и повысить результативность индексирования и продвижения, ограничив доступ роботам к тем страницам, где нет ценного контента.


В рассматриваемом примере все системные папки движка Joomla закрыты от индексирования с помощью конструкции Disallow. Чтобы явно разрешить доступ к какому либо элементу, нужно использовать Allow.


У файла есть и другие интересные особенности. Например, такие, как закрыть сайт от индексации только в определенной поисковой системе. Для этого используется специальная конструкция User-agent. Если после нее указать наименование конкретного робота — Googlebot или Yandex, то все последующие инструкции будут предназначены только для указанной ПС. Как заблокировать сайт в гугле и разрешить индексацию только в Yandex? Достаточно использовать следующую конструкцию


User-agent: Googlebot


Disallow: /


User-agent: Yandex


Allow: /


User-agent позволяет лучше соответствовать требованиям поисковых систем. Тот же Google предлагает разрешить его ботам индексировать файлы скриптов и стилей. Самый простой способ сделать это — добавить всего две лишние строчки в robots.txt


User-agent: Googlebot


Allow: *.css


Allow: *.js


Важно! В зависимости от используемой CMS нужно определить страницы, которые наверняка будут содержать дубли уже размещенной информации (результаты поиска, например) или никогда не обзаведутся полезным для пользователя контентом (страницы входа, регистрации). Доступ к этим страницам нужно запретить в robots.txt, чтобы улучшить результаты индексирования.


Проверить отредактированный файл на правильный синтаксис и узнать, разрешен ли конкретный URL можно в Яндекс Вебмастере:

Noindex и Nofollow


Использование мета-тэгов для ссылок позволяет указывать роботам, что делать на конкретной странице, и стоит ли проводить индексацию сайта в Google, Яндекс и любой другой ПС, которая поддерживает работу с такими тэгами.

  • INDEX, FOLLOW — содержимое страницы можно добавлять в индекс, также необходимо перейти по всем ссылкам;
  • INDEX, NOFOLLOW — страница должна попасть в индекс, но переходить по ссылкам не нужно;
  • NOINDEX, FOLLOW — страница не попадет в индекс, но робот пройдет по всем ссылкам на ней;
  • NOINDEX, NOFOLLOW — вся страница целиком и ссылки на ней запрещены к индексированию и переходам.


Популярные CMS позволяют устанавливать такие тэги для отдельных документов, категорий и пунктов меню. Для отдельных ссылок также можно использовать noindex. В этом случае роботы будут обязаны не включать в базы содержимое целевого документа.

Карта сайта


Чтобы индексация сайта в Гугл, а также в Яндексе прошла максимально быстро, нужно указать поисковым системам ссылки на наиболее важный контент. Конечно, можно делать это вручную (об этом — ниже), но постоянное появление новых страниц на продвигаемом ресурсе приведет к необходимости ручного добавления страниц, что не слишком удобно. Карта сайта — решение этой проблемы. Она представляет собой XML документ с определенной разметкой, который размещен по известному ПС адресу. Роботы посещают этот адрес и моментально получают информацию о появлении новых ссылок на вашем сайте.


Для подготовки карты сайта лучше воспользоваться специализированным расширением для CMS, которое будет автоматически обновлять содержание XML при создании новых статей и разделов. Структура сайта допускает указание периода обновления для различных страниц и приоритета в индексации. Оба эти параметра носят рекомендательный характер, поскольку ПС самостоятельно измеряют временные интервалы между датами изменения и посещают чаще те страницы, где они фактически происходят быстрее.


Как ускорить индексацию сайта в Яндексе? Нужно добавить карту сайта через панель Вебмастера и дождаться обхода роботом ссылок.


В Google Search Console также есть специализированный раздел:


Не лишним будет и указание ссылки на Sitemap в файле robots.txt с помощью конструкции:


Sitemap: https://vash_sait/путь_к_sitemap.xml


Поисковики могут и проигнорировать эту запись, полагаясь только на информацию из файлов, добавленных вручную через панели управления.

Учет страниц из Метрики


Подключение счетчика Метрики и его связь с сервисом ЯндексВебмастер позволяет значительно ускорить процесс индексации сайта в Яндекс благодаря автоматической передачи сведений о страницах из кода счетчика.


При установке на сайт кода Google Analytics (GA) также можно передавать сведения о новых страницах в Search Console. Для этого нужно войти под своей учетной записью и связать сервисы, перейдя по ссылке в уведомлении.


Важно! Предложенный метод позволяет как ускорить индексацию в Яндексе и Гугле, так и значительно замедлить этот процесс. Все зависит от настройки файла robots.txt и особенностей работы вашей CMS. Если система управления контентом генерирует большое число динамических страниц (фильтры товаров в интернет-магазинах, результаты поиска) при выполнении запросов пользователей, то перед подключением обхода по данным Метрики нужно обязательно исключить такие страницы из индексации.

Добавление URL вручную


Для ускорения индексации наиболее важных страниц сайта можно добавлять их в индекс вручную. В Search Console нужно вставить ссылку в верхнее поле поиска и дождаться получения информации из индекса:


Если страница еще не попала в базу, можно запросить индексирование, нажав соответствующую кнопку на странице с результатами поиска. Таким образом можно также проверить индексацию сайта в гугле, любой его страницы или документа.


В ЯндексВебмастер есть аналогичный функционал. С его помощью можно не только узнавать статус индексации, но добавлять страницы в обход вручную.


Достаточно указать список URL и отправить их на переобход. Даже если адрес пока неизвестен роботу, он посетит указанные ссылки.

Как проверить индексацию сайта


Чтобы проверить индексацию страницы в Яндексе нужно перейти в раздел «Проверить статус URL» и указать адреса, по которым нужно получить информацию из индекса.


Добавление страницы в список отслеживаемых позволит получить уведомление о том, что страница добавлена индекс и поиск, а также о важных изменениях в ее статусе (редирект, ошибка 404).


Проверка индексации страницы в Яндексе может быть проведена и с помощью запроса на странице поиска, но этот метод позволяет получить информацию только о тех из них, которые уже попали в поисковую базу. для этого используется конструкция


site:ваш_домен.ru


Метод одинаково работает в ПС Яндекс и Google.


Проверка индексации страницы в Google возможна через поиск Search Console. Единственный минус такого решения: URL придется вставлять по одному. У Яндекс допускается загрузка списков из 20 ссылок.

Методы ускорения индексации


Как проиндексировать сайт в Гугл и Яндекс, чтобы процесс происходил быстро, а в индекс попадали только те страницы, которые впоследствии будут учитываться в поиске? Нужно придерживаться нескольких простых правил:

  1. Настроить индексацию в robots.txt таким образом, чтобы исключить дублирование страниц и исключить из обхода все служебные разделы сайта, не содержащие информации для пользователей.
  2. С помощью тегов Noindex и Nofollow закрыть конкретные ссылки и документы, которые не должны попасть в базу поиска.
  3. Сформировать и подключить карту сайта.
  4. Оптимизировать структуру каталогов и упростить навигацию, чтобы путь до самых важных документов был как можно ближе к корню сайта.
  5. Организовать внутреннюю перелиновку статей таким образом, чтобы путь робота по ссылкам не содержал коротких петель (два документа ссылаются только друг на друга) и охватывал максимально возможное количество ценных для пользователей материалов.


Все эти действия можно провести самостоятельно, но чтобы избежать ошибок, которые пагубно скажутся как на скорости индексации ресурса, так и на его представленности в результатах поиска лучше доверить их профессионалам. Узнать о стоимости услуг оптимизации сайтов можно по этой ссылке.

Как проверить индексацию сайта в Google (руководство)

Содержание:

Панель вебмастеров

Поисковые операторы

Плагины и букмарклеты

Сервисы проверки индексации

Заключение

Качество индексации сайта в процессе его раскрутки может иметь решающее значение. Под индексацией следует понимать попадание информации со страниц сайта в базу данных поисковой системы. Поисковый робот или краулер – средство сканирования сайта. Он пробегает по всей его структуре в рамках установленного лимита (краулинговый бюджет), совершает быстрый скан и добавляет найденную информацию в индекс.

При этом само сканирование не занимает много времени. Обращаясь к файлу robots.txt, бот поисковика действует согласно пунктам приватности, указанным в настройках файла. Так что это быстрый процесс. Другое дело сама индексация. Скорость добавления данных зависит от ряда факторов, поэтому важно держать этот процесс на контроле.

Отсюда возникает вопрос — какая именно информация попала в базу поисковика? Ведь от этого напрямую зависит «видимость» страниц сайта в поисковой системе. И как проверить качество индексации сайта поисковиком? Рассмотрим основные методы, которые применяют СЕО-специалисты в данном вопросе на примере поисковой системы Google.

Наиболее надёжным способом проверить индексацию сайта в системе Google является панель вебмастеров. Для этого надо иметь доступ к оной. Если таковая возможность у нас есть — заходим, ищем меню Search Console, где находим вкладку Индекс Google. Там выбираем Статус индексирования.

Как можно догадаться, так выглядит динамика стабильности с последующим снижением количества страниц в базе поисковика. Налицо проблема с индексацией. Причиной могут быть настройки в файле robots.txt, и не только.

Рядом с отметкой «Проиндексировано всего» указано число адресов, найденных роботом поисковика Гугл в ходе сканирования, и добавленных в индекс. Число URL индексации всегда намного меньше, чем общее количество обработанных адресов. Причина понятна – в индекс не добавляются повторы URL, а также те адреса, что защищены от доступа строкой Disallow в файле robots.txt и метатегом noindex в секции head разметки html.

В расширенном виде Search Console в Google можно увидеть ещё 2 пункта проверки. Это количество URL, которые были заблокированы через robots.txt, а также число удалённых адресов.

Плохо не только резкое снижение количества добавленных в индекс URL. Резкий скачок вверх говорит о засорении процесса индексации. Оптимально, когда кривая плавно стремится вверх. Таким образом, с помощью панели вебмастера в Гугл можно легко проверить степень качества и баланса индексации страниц.

Поисковая система Гугл обладает набором подручных средств, которые помогают детализировать вводимый в поисковую строку запрос по сайту. Это так называемые поисковые операторы. Они позволяют быстро получить определённую информацию по индексации страниц, проверить степень их обработки поисковым роботом как в целом, так и в деталях.

Перечислим некоторые из операторов Google, к которым часто прибегают SEO-специалисты с целью уточнить результаты поиска и проверить уровень взаимодействия сайта с поисковыми ботами.

Оператор Site выводит список страниц, занесённых в индекс. Пример – site:[адрес сайта]. Это удобно не только для анализа своего сайта, но и при анализе страниц конкурентов ниши.

Оператор Intitle показывает страницы с заданным целевым словом или фразой в заголовках (тайтлах). Пример: intitle:[индексация сайта]. «Индексация сайта» в данном случае — искомая фраза.

Ещё один важный оператор Cache позволяет проверить частоту посещения сайта поисковым роботом. Оператор Inanchor предназначен для вывода количества страниц со ссылками с участием ключевого слова. Есть ещё немало полезных операторов – Link, Related, Inurl, Info.

Система Google располагает множеством средств, позволяющим проверить степень видимости страниц поисковиком.

Поисковая система Гугл прекрасно контактирует с множеством плагинов и скриптов. Последние имеют разновидность, которая называется букмарклет. Букмарклеты могут работать как закладки в браузере наравне с плагинами.

Использование плагинов и букмарклетов позволяет в пару кликов проверить индексацию сайта и другие его характеристики.

Среди плагинов Google, применяемых SEO-специалистами для анализа страниц, отметим SimilarWeb, MozBar и RDS bar. Ниже приведён пример работы плагина RDS bar в Гугле и Яндексе. Можно посмотреть степень индексации станиц и другую информацию.

Букмарклеты для проверки индексации работают в аналогичном стиле. Есть такие скрипты, как Google Index и Google URL Index. Первый позволяет проверить индексацию через оператор site, а второй – через оператор info.

Специальные сервисы-анализаторы облегчают работу СЕО-специалиста. Их существует превеликое множество. Среди таковых особенно отметим saitreport.ru, Netpeak Spider и Netpeak Checker, SEO-reports, Rush Analytics, Топвизор и FastTrust.

Обобщённо говоря, эти средства позволяют проверить индексацию сайта, провести диагностику возможных проблем. Среди прочих функций – скан наличия страниц в каталогах поисковика, проверка ключевых слов, информация о динамике ссылок, общий анализ позиций сайта.

Не всегда уровень индексации сайта может нас устраивать. Причины низких результатов сканирования страниц поисковым роботом могут заключаться в следующем:

  1. Не добавлена карта сайта в панель Вебмастеров.
  2. Наличие ошибок в структуре страниц.
  3. Наличие тега noindex в HTML-коде страниц.
  4. Блокировка доступа в файле robots.txt.
  5. Новый сайт.

Чтобы достичь идеального уровня индексации сайта, требуется совпадение ряда условий. Это непростая задача, учитывая высокую динамику развития алгоритмов поисковых систем, что не отменяет важности контроля. На примере поисковой системы Гугл мы выяснили, что проверить индексацию можно с помощью: Google Webmaster, операторов поиска Гугл, плагинов и букмарклетов для Google и Яндекс и сервисов проверки индексации.

Как проверить индексацию сайта в поисковых системах Google и Яндекс

Сервисы и программы

Тут выбор еще разнообразнее и основное преимущество в том, что можно сделать массовую проверку url, которые вас интересуют. Дальше уже выбор за тем, какой сервис вам больше нравиться, сколько url за раз может проверить, платный он или бесплатный.

Бесплатные онлайн-сервисы:

  1. https://xseo.in/indexed — проверка количества проиндексированных страниц, если страниц относительно немного (до 100), то можно скопировать этот список URL.
  2. https://serphunt.ru/indexing/ — можно массово проверить индексацию до 50 URL за раз.
  3. https://raskruty.ru/tools/index/ — тут можно проверить или сразу весь домен, или список до 10 URL.

Платные

На платных тарифах сервиса seranking.com можно массово проверять индексацию списка URL.

Программы для ПК

Если вы планируете заниматься SEO самостоятельно, всерьез и надолго, то есть большая вероятность, что вы купите Netpeak Spider и Netpeak Checker. Так вот с помощью Netpeak Spider можно просканировать и скачать список всех страниц сайта, потом передать их в Netpeak Checker, в котором проверить индексацию. Тут ограничений на кол-во URL уже не будет, понадобится только время на сканирование страниц.

Ускорение индексации сайта

Через панели вебмастеров можно запросить индексацию отдельных страниц, но делать это регулярно для большого количества страниц весьма неудобно.

Поисковый робот за раз индексирует только ограниченное количество страниц, этот лимит называют краулинговым бюджетом. Он рассчитывается для каждого сайта индивидуально. Если сайт маленький, то можно о нем не беспокоиться, а вот если большой, то стоит уделять ему внимание.

Если на сайте много ошибок, низкокачественных страниц, дублей и тому подобное, то они мало того, что замедляют индексацию, так еще и тратят краулинговый бюджет. В итоге поисковик может долго обходить некачественные страницы и разбираться с ошибками, вместо того, чтобы уделять внимание важным страницам, которые могут принести вам доход.

Так что для успеха нужно:

  1. Максимально избавляться от ошибок, дублей и некачественных страниц.

    Они как «Сусанин» для поисковых ботов.
  2. Настроить перелинковку.

    К каждой странице должна вести своя «дорога» (ссылка) с понятными «указателями» (анкорами и околоссылочным текстом). Чем больше ссылок, тем важнее страница.

    Для ускорения индексации новых страниц ссылки на них можно размещать на главной странице сайта, ее поисковые боты переобходят чаще всего.

    Репосты статей в социальных сетях также повысят вероятность быстрой индексации.
  3. Настроить автоматическое обновление карты сайта.

    Каждая новая страница должна попадать в sitemap, каждая удаленная страница – удаляться из карты.
  4. Улучшать скорость загрузки страниц.

    Чем быстрее, тем лучше, но ориентируйтесь на средний показатель скорости по конкурентам.
  5. Настроить robots.txt / мета-теги robots.

    Так, чтобы все лишнее закрыть от индексации, а все нужное было открыто для нее.
  6. Регулярно обновляйте сайт.

    «Живой» сайт привлекает постоянное внимание поисковиков, сайт регулярно переиндексируется, новые страницы быстрее попадают в поисковую выдачу, а по старым подтягивается актуальная информация.

    Добавляйте новые страницы, дополняйте и актуализируйте старые, дополняйте перелинковку.

Что такое индексация сайта (Как улучшить индексацию в Google)

Индексация сайта — это процесс сбора информации поисковой системой о содержимом вашего сайта. Во время индексации поисковые роботы (пауки) сканирую и обрабатывают web страницы, изображения, видео и другие доступные для сканирования файлы. Чтобы поисковая система быстро проиндексировала сайт: создайте карту сайта и добавьте ее в Google Search Console.

Сайт должен быть проиндексирован чтобы отображаться в поиске

Страницы, которые прошли сканирование и обработку, сохраняются в базу данных. Такая база называется «поисковой индекс». Именно в этой базе данных поисковая система ищет результаты, отвечающие на запросы пользователей.

Важно понимать:

  • Если страницы нет в поисковом индексе — ее невозможно найти в поисковой системе.
  • Индексация нужна чтобы участвовать в поиске.
  • У каждой поисковой системы свой поисковой индекс, свои поисковые боты.
  • Поисковой бот от Google называется Googlebot.
  • Настройка индексации сайта, это базовый уровень работ по SEO.

Содержание статьи

Как проверить индексацию страницы?

Самый быстрый способ — написать в строку поиска команду site:[адрес страницы]. Такой поиск найдет все проиндексированные страницы сайта. Для того, чтобы просмотреть дату последнего сканирования страницы, напишите в строку поиска cache:[адрес проверяемой страницы]. Если вам нужно проверить индексацию конкретной страницы просто скопируйте ее адрес и введи в поиск запрос site:[адрес страницы]. Этот метод будет работать как в Google так и в Yandex или Bing.

Совет: Сравните количество проиндексированных страниц с реальным количеством страниц на сайте. Это поможет быстро оценить есть ли у вашего сайта проблемы с индексацией. К примеру: если на сайте 100 товаров, 10 разделов и 10 информационных страниц (в сумме 120), а в индексе только 50 страниц, это означает, что поисковая система не знает о большей части вашего сайта.

Как проверить индексацию всего сайта

Для проверки индексации сайта нужно выполнить 2 простых шага:

  1. Узнать сколько страниц на сайте. Для этого просканируйте свой сайт специальными инструментами. Если ваш сайт до 500 страниц вам подойдет бесплатная версия Screaming Frog , если этого недостаточно используйте, бесплатный Site Analyzer. В разделе «HTML» вы увидите общее количество страниц вашего сайта.
  2. Зайдите в инструменты для вебмастеров или Google Search Console (Что такое Google Search Consol )  откройте отчет «Покрытие» и просмотрите количество страниц в статусе «Без ошибок». Количество страниц в сканере Site Analyzer и страниц в Google Search Console должно приблизительно совпадать. Это, будет означать, что основные страницы сайта сканируются. Если часть страниц попала в группу «Исключено» вы можете изучить причины исключения страниц. В этом же отчете вы можете познакомиться с историей индексации вашего сайта за последние 3, 6 или 12 месяцев.
  3. Довольно часто в отчете «Покрытие» вы можете увидеть большое количество страниц в статусе «Страница просканирована, но пока не проиндексирована» — это означает, что поисковая система уже получила данные о ваших страницах но пока не обработала их до конца. Так же, страницы могут находиться в этом статусе по причине низкого качества: пустые страницы или страницы с повторяющимся содержанием. Если количество «пока не проиндексированных» страниц не сокращается попробуйте уникализировать, добавить содержание или увеличить количество качественных внешних ссылок на свой сайт.
  4. Если вам нужно массово проверить индексацию страниц вашего сайта, воспользуйтесь онлайн инструментом https://indexchecking.com
  5. Хорошая идея проверить свой сайт с помощью инструментов https://en.ryte.com — это поможет вам понять какие страницы закрыты от индексации. А так же, обнаружить страницы на которых есть технические проблемы.

Проверяем не закрыта ли отдельная страница от индексации

Если перед вами появилась задача, проверить запрет индексации конкретной страницы проще всего использовать инструменты для вебмастеров. Скопируйте адрес страницы которую вы хотите проверить и вставьте в инструмент «Проверка URL на ресурсе».

В результате проверки вы получите информацию о запретах индексации. Обратите внимание на информацию о запретах, статусе страницы и канонический адрес.

 

Как добавить новый сайт в индекс поисковиков?

Сообщите поисковой системе о своем сайте в специальном инструменте Google или Yandex. Поделитесь своим сайтом в социальной сети или создайте на него ссылку с другого, уже проиндексированного сайта.

Узнайте больше о работе поисковой системы

Что делать, если сайт плохо индексируется?

Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:

  • Создайте карту сайта и загрузите в инструменты для вебмастеров.
  • Обновите старые страницы.
  • Удалите пустые страницы.
  • Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.

Как происходит индексация сайта

Для решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:

  1. Сканирование страниц.
  2. Обработка страниц.

Этап 1: Сканирование

Сканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:

  1. Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.
  2. Перечень ссылок, которые находятся на странице.

Полученное содержание передается для дальнейшей обработки и сохранения в базу. Просканированные ссылки так же сохраняются в специальный список — “очередь сканирования”, для дальнейшей обработки.

Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.

Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта — самый простой способ отправить на индексацию все страницы в рамках нашего домена.

Есть несколько способов создать карту сайта:
  • Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.
  • Программа для сканирования сайта, с возможностью создания sitemap — xenu links.
  • Библиотека приложений для создания sitemap.
  • Самый популярный плагин для создания карты сайта для WordPress.

Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txt

Добавление карты сайта в Search Console:
  1. Зайдите в https://search.google.com/search-console/
  2. Добавьте свой сайт или выберите из списка.
  3. Перейдите в раздел Сканирование — Файлы Sitemap.
  4. Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.
Добавление sitemap в robots.txt:
  1. Зайдите в корневой каталог сайта через ftp.
  2. Откройте файл robots.txt
  3. Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.

Третий способ ускорить индексацию — сообщить поисковому боту о дате последнего изменения страницы. Для получения даты и времени изменения страницы боты используют данные из заголовка ответа сервера lastmod. Сообщить наличие изменений на странице можно с помощью кода ответа not modify.

Инструмент проверки заголовка lastmod и ответа сервера not modify.

Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются.

Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.

Этап 2: Обработка данных

Перед тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.

В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.

Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.

Сейчас Google использует алгоритм индексации, который называется Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:

  • Обработка современных страниц, использующих сложные js и css элементы.
  • Максимально быстрое сканирование всех страниц в Интернете.
Анализ текста при индексации

После разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.

Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.

Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02

Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.

Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.

Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.

От чего зависит индексация сайта?

  1. Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap
  2. Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.
  3. Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.
  4. Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.

Подведем итоги

  • Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.
  • Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
    Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.

Мы можем проверить и настроить индексацию вашего сайта за вас.

SEO аудит с рекомендациями за 10 дней.

Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.

Руководитель отдела продвижения SEO7. Ведущий Youtube канала Школа SEO. Автор блога о поисковой оптимизации seo-sign.com

Что такое индексация сайта в поисковых системах Google и Яндекс

Чтобы пользователи узнали о вашем сайте и, к примеру, совершили покупку или прочитали статью — он должен отображаться в поисковых системах, вроде Google и Яндекс. Для этого каждый ресурс проходит индексацию. Этот процесс отличается от ранжирования тем, что при индексации сайт просто попадает в базу данных поисковиков, а при ранжировании — встает на конкретное место.

Мы спросили мнение у экспертов в области веб-оптимизации и рассказали в статье о том, как происходит индексация сайтов и что делать, если ваши страницы не индексируются поисковиками.

Что значит индексация сайта и почему она важна

«Индексирование сайта — это процесс, в ходе которого поисковые системы получают информацию о страницах ресурса. Полученные данные хранятся в базе, которую называют поисковым индексом. Так Яндекс, Google и другие поисковики узнают, что ваш сайт существует и наполнен полезным контентом. Индексация нужна для того, чтобы юзеры могли найти ваши страницы при поиске» — так определяет индексацию Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group.

Эксперт Роман Огрин добавляет, что индексация — важный этап запуска любого проекта, на котором планируется активное SEO-продвижение или есть планы по развитию органического трафика. Исключения составляют рекламные форматы, вроде контекстной рекламы, — для них процесс индексации не является ключевым.

Для индексирования поисковик, например Яндекс или Google, отправляет на сайт роботов, они считывают код и регулярно посещают страницы ресурса. Периодичность зависит от того, как часто меняется контент, от количества страниц и объема трафика.

Как происходит индексация сайта

Анастасия Шестова, руководитель направления поискового продвижения в ИнтерЛабс, сравнивает индексацию с добавлением книги в библиотеку: когда определен жанр, автор и название книги, она занимает свое место в библиотеке, и читатель может ее найти. Поэтому индексацию сайта вернее рассматривать как двухэтапный процесс: сначала идет сканирование страниц, затем — их обработка. 

Сканирование страниц

Сканирование страниц — это основная задача поискового робота. Когда он попадает на новую страницу, то получает два набора данных:

  • Содержание, информацию о сервере и служебные данные.
  • Перечень ссылок на страницах.

Затем робот передает данные в обработку, а после — сохраняет в базе. Самый простой способ индексации страниц в рамках домена — создание карты сайта sitemap.xml. 

Чтобы Google и Яндекс увидели ваш сайт, нужно cначала добавить его в сервисы, а затем прикрепить ссылку на файл Sitemap в Google Search Console и Яндекс.Вебмастере. Это специальные сервисы для веб-мастеров, которые помогают работать с индексацией. 

Чтобы добавить файл Sitemap в Google Search Console, зайдите в сервис, добавьте свой сайт и перейдите в раздел «Сканирование». В пункте «Файлы Sitemap» выберите  «Добавить файл Sitemap» и вставьте ссылку на файл Sitemap.

В Яндекс.Вебмастере путь похож: зайдите в ваш аккаунт, выберите нужный сайт. Затем в левом меню нажмите на раздел  «Индексирование» и выберите вкладку «Файлы Sitemap». В строку «Добавить файл Sitemap» вставьте ссылку файла и нажмите «Добавить». Кстати, если вы внесли изменения в карту сайта, то просто отправьте карту на перепроверку, нажав на стрелочки рядом с файлом Sitemap.

Обработка страниц

После сбора роботами информация проходит обработку и потом попадает в базу данных. Это необходимо для ускорения дальнейшего поиска.

В начале программа формирует страницу со всем содержимым: скрипты, эффекты, стили. Важно, чтобы робот имел полный доступ ко всем файлам, потому что без них индексатор не сможет понять структуру. 

Вы можете посмотреть, одинаково ли видят страницу пользователи и поисковой робот. Для этого зайдите в Google Search Console, выберите отчет «Посмотреть как Googlebot» в разделе «Сканирование». 

Затем робот анализирует текст страницы: упрощает слова и определяет частоту упоминания ключевого слова, проверяет уникальность. Так, если ваш контент уже индексировали в интернете, то у страниц будет низкая уникальность. Значит, робот может не добавить их в поисковый индекс. Поэтому важно наполнять свой сайт уникальным и полезным контентом.

Как проверить индексацию 

Эксперты выделяют три способа, чтобы проверить, отображается ли сайт в поисковиках: запрос в поисковой системе, использование бесплатных сервисов для автоматической проверки и использование сервисов для веб-мастеров. 

Если значения проиндексированных страниц в Google и Яндекс сильно различаются, это свидетельствует о проблемах в оптимизации сайта.

Дарья Каблаш, основатель маркетингового агентства Dvizh

Поисковая строка

Роман Огрин, руководитель группы оптимизации в Kokoc Group, называет специальные операторы самым быстрым и простым способом проверки индексации. Яндекс и Google поддерживают оператор site, который помогает отображать проиндексированные страницы. Базовый синтаксис использования: site:sitename.com

Например: site:gosuslugi.ru

Но поисковые системы могут ограничить работу этих операторов для снижения нагрузки. Поэтому рекомендуют использовать дополнительные способы для проверки индексации. 

Бесплатные плагины

«Можно использовать специальные бесплатные сервисы, например, be1.ru и pr-cy.ru. Для проверки введите адрес сайта в специальную строку и нажмите «Проверить». Обычно такие сервисы, помимо количества страниц в индексе популярных поисковиков, предоставляют еще много интересных данных» — Николай Полушкин, директор веб-студии DIUS.

Веб-сервисы Яндекс.Вебмастер и Google Search Console

Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group, считает веб-сервисы поисковых систем самым достоверным источником информации о наличии страницы в индексе. В этих инструментах можно получить данные о количестве, динамике индексации, причинах удаления или включения страницы в базу данных, а также многое другое. Минус в том, что доступы к этой информации могут получить только владельцы сайта или те, у кого есть права владельцев. 

Эксперт Роман Огрин рассказывает, как именно посмотреть индексацию в Яндекс.Вебмастере и Google Search Console. Оба сервиса сначала надо «привязать» к исследуемому домену и только потом смотреть точную статистику.

В Яндекс.Вебмастере есть раздел «Индексирование» с подразделом «Страницы в поиске». По клику на вкладку «Все страницы» сервис выдает список проиндексированных на данный момент документов. В Search Console аналогичный инструмент — отчет «Покрытие».

Помимо простого анализа страниц в индексе, оба сервиса предоставляют много полезной статистики. Эта информация поможет сделать правильные выводы при проблемах с индексацией.

Например, посмотрите, совпадает ли количество проиндексированных страниц с количеством страниц вашего сайта. Если у вас 240 страниц, а в индексе только 100, это означает, что есть проблемы с индексацией, ведь поисковая система не знает о большей части контента.

Управление индексацией сайта

Вы можете сами задать параметры индексирования для роботов поисковых систем. Например, настройка канонического адреса необходима, если есть страницы с одинаковым содержанием. Она позволяет указать, какая из них приоритетна для индексации. 

Текстовый файл robots.txt также позволяет управлять поисковыми роботами с помощью директив.

  • Директива Disallow закрывает сайт или конкретные страницы от индексации роботами.
  • User-Agent указывает поисковую систему для индексации по написанной инструкции.
  • Crawl-delay задает частоту обращения роботов к ресурсу. Работает для Яндекса.
  • Clean-param закрывает индексирование с конкретными динамическими параметрами.
  • Директива Allow разрешает роботам индексирование отдельных страниц.

Что делать, если сайт не индексируется

Есть множество причин, почему сайт не индексируется. Эксперт Сергей Шабуров условно разделяет причины на технические и контентные. Ниже рассмотрим основные из них с примерами из опыта специалистов.

Технические причины

Сайт может быть случайно закрыт от сканирования роботами или из-за ошибки разработчиков. Это можно определить, если проверить:

  1. Директиву Disallow в файле robots.txt. Как мы писали выше, эта директива закрывает конкретные страницы от индексации.
  2. Мета-теги в разделе <head> HTML-документа, например, <meta name=»robots» content=»noindex» />. Они определяют отношение к сканированию контента в документе.
  3. HTTP-заголовок X-Robot-Tag — информация о запрете или разрешении индексации сайта в HTTP-заголовках ответа сервера.
  4. Код ответа сервера. В индекс попадают только доступные страницы с кодом ответа сервера 200 Ок, а ресурсы с другими кодами ответа удаляются. Изменение кода ответа — один из способов управления индексацией.
  5. Настройки сервера. Для разных IP адресов, User-agent и других параметров серверная часть ресурса может регулировать как скорость, так и саму отдачу информации о странице и ее содержимом.
  6. Наличие входящих внутренних или внешних ссылок. Индекс может исключать такие страницы.
  7. Низкий трафик. Это может быть следствием малополезной страницы или отсутствием семантического спроса со стороны пользователей по данному контенту.

Николай Полушкин, директор веб-студии DIUS, делится недавним случаем из практики. «Пришел сайт на бесплатный аудит. Клиент жаловался на резкую просадку трафика. SEO-специалист сразу открыл файл robots.txt и нашел строчку  Disallow. Мы сообщили об этом клиенту и объяснили, что сайт закрыт от индексации, и страницы постепенно удаляются из поиска. Заказчик был удивлен и попросил выяснить, кто и когда это сделал. Недавно компания делала редизайн и наш специалист предположил, что страницы на время работ закрыли от индексации, а потом забыли убрать запрещающую директиву».

Контентные причины

Важно помнить, что индексация занимает некоторое время. Поэтому, если страницы нет в индексе, иногда это может значить, что роботы поисковых систем не успели до нее дойти. Либо есть ошибки в контентном наполнении страниц:

  1. Отсутствие индексируемого контента. Контент может быть реализован на технологии, которую поисковые системы не умеют считывать или плохо воспринимают к индексации. Так векторная графика, например Flash, не индексируется.
  2. Контент без пользы или вредный для пользователей. Сюда относят: спам, малый по объему контент, устаревшая информация, которая никогда не будет востребована, наличие вирусов, фишинга.
  3. Дублирующийся контент. Поисковые системы стараются не индексировать или удалять из выдачи страницы, которые содержат повторяющуюся информацию.

«У нас была такая ситуация с кулинарной онлайн-школой. В Google сайт показал хорошие результаты уже в первый месяц работы и вышел в ТОП-3 по прямым запросам. Но в Яндексе страницы вообще отсутствовали.

Чтобы узнать причину, мы зарегистрировали сайт в Яндекс.Вебмастере и отправили на проверку. Результаты показали критическую ошибку. Дело было в том, что на ресурсе дублировались страницы. Владельцы школы публиковали для разных таргетологов страницы с одинаковым контентом, но разными ссылками. Яндекс видел в этом неуникальный контент и не индексировал страницы.

Мы удалили дублирующиеся страницы, перейдя на utm-метки, и отправили сайт на переиндексацию. Через несколько дней проблема решилась, сайт стал отображаться в Яндексе» — Дарья Каблаш, основатель маркетингового агентства Dvizh.

Иные причины

Более редкие случаи неиндексации могут быть связаны, например, с фильтром  «для взрослых».

Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group, приводит свежий пример из практики. «Сайт одного из российских операторов мобильной связи перестал ранжироваться по навигационному запросу: «<Название оператора> тарифы» в Яндексе. В выдаче присутствовали побочные сайты, а ресурс оператора отсутствовал. Это неслыханная вещь, при учете, что целевая страница и все остальные были в индексе по данным Яндекс.Вебмастера. По данному запросу сайт должен был занимать как минимум несколько строчек поисковой выдачи. Проблема выявилась при переключении настроек поиска с умеренного фильтра на фильтр без ограничений.

Это значит, что страница перешла из основного индекса в специальный “Фильтр для взрослых” или «Adult-фильтр». После обращения в службу поддержки Яндекса обнаружилось, что это ошибка на стороне поисковой системы, так как на странице не было какой-либо специфичной информации».

Также возможен редкий случай неиндексации — «плохая история» домена. В этом случае был куплен домен, на котором ранее был поисковый спам или adult-ресурс, поэтому сайт сразу может быть под фильтром.

«В нашей практике был пример сайта на домене, на котором ранее был размещен белый каталог сайтов. Ресурс индексировался нормально и потом резко пропадал из индекса поисковых систем. Помогли письма в техподдержку Яндекса и отправка страниц на принудительную переиндексацию. Но даже после этого периодически сайт продолжал полностью вылетать из индекса, за этим приходилось отдельно следить. Чтобы таких моментов не было, перед покупкой домена лучше всего проверять его историю» — Анастасия Шестова, руководитель направления поискового продвижения в ИнтерЛабс.

Заключение

Без индексации пользователи не увидят ваш сайт даже при прямом поисковом запросе. Поэтому индексация — обязательный процесс для ресурсов, которым важен органический трафик.

Во время индексации роботы сканируют и обрабатывают информацию на страницах, заносят ее в специальную базу данных — поисковый индекс. Можно легко проверить, есть ли ваши страницы в поисковой выдаче, например, в Google. Самый надежный способ — использование сервисов для веб-мастеров: Яндекс.Вебмастер и Google Search Console.

Часто сайты, которые должны быть проиндексированы, все равно не попадают в поиск. В таком случае нужно проанализировать возможные технические и контентные причины. В редких случаях работы могут убрать ресурс из выдачи из-за ошибки на стороне поисковой системы или плохой истории домена.

как сделать в Яндексе и Гугле

Автор Prodvigaem Team На чтение 5 мин. Просмотров 171 Опубликовано

Регулярная проверка индексирования сайта необходима при продвижении в поисковых системах. Вы должны проверять на наличие в индексе не только целевые URL, но и возможное попадание в поисковую выдачу «мусорных» или служебных страниц.

Способы проверки

Поисковый запрос в Google

Самый быстрый вариант проверить индексацию сайта в индексе яндекса и гугла – это сформировать в поисковой строке запрос вида «site:yoursite.ru». Естественно, после команды site: нужно указывать свой адрес ресурса. Выполнив поиск, Google покажет все страницы, находящиеся в индексе.

Помимо поиска всех страниц, можете точно так же найти все ресурсы раздела. Если же требуется проверка индекса конкретной страницы, то в этом поможет оператор поискового запроса «info:».

Google Search Console

Незаменимый инструмент SEO-оптимизации. Если Вы еще не зарегистрировали свой сайт в панели вебмастера Google, сделайте это как можно скорее.

Чтобы посмотреть статус индексирования зайдите в раздел Индекс Google > Статус индексирования. В этом разделе Вы увидите количество проиндексированных страниц проверяемой площадки. Сравните количество проиндексированных URL с количеством в файле sitemap.xml.

Если проиндексировано страниц меньше, чем содержит XML карта сайта, возможно, наблюдается одна из проблем, о которых мы поговорим немного позже. Если же страниц в индексе находится больше, чем в файле sitemap, значит, в индекс попали лишние страницы, которые нужно срочно закрыть от индексации.

Лишние URL:

  • Страницы дубликаты контента (создаются автоматически некоторыми CMS системами).
  • Служебные ресурсы (файлы CMS системы, админ-панель).
  • Файлы. Например, PDF фалы, могут попасть в индекс.

SEO-плагины для браузеров

SEO-плагины – это специальные надстройки для браузеров, которые позволяют узнать основную информацию об открытом сайте, попавшую в выдачу поисковиков Яндекс и Гугл: количество проиндексированных ресурсов и картинок, рейтинг, ошибки в meta-тегах и много другой ценной информации. Один из самых популярных плагинов – RDS bar для Google Chrome или Mozilla.

Netpeak Spider и Netpeak checker

Два профессиональных инструмента для вебмастеров, которые занимаются вопросами SEO. Эти программы платные. Netpeak Spider стоит 117.6$ в год, а Checker 159.6$ в год. Есть подписки на месяц, три или полгода. Несмотря на внушительную стоимость, относительно других инструментов: эти две программы позволяют проводить SEO-анализ по самым глубоким показателям и находить SEO-ошибки.

Netpeak Spider

Как можно понять из названия – это программа паук, которая, пройдя по всему сайту, найдет все страницы, скачает контент так, как его видят поисковые роботы, и выдаст отчет по 112 показателям. Сейчас же нас интересует проверка соответствия инструкции для индексации.

Проверяем инструкции для поисковых агентов (пауков).

В программе Netpeak Spider зайдите в меню «Настройки сканирования», и в разделе «индексация» отметьте все пункты. После проведения сканирования программа выдаст отчет по всему сайту.

Куда смотреть в отчете

Запомните теги, которые указывают на разрешение или запрет на индексацию конкретной страницы.

Разрешающие команды:

  • Allow – команда из robots.txt.
  • Index – из тега meta-robots. Разрешает показ в результатах поиска.
  • Follow – из тега meta-robots. Разрешает переходить по ссылкам со страницы.

Запрещающими тегами будут соответственно:

  • Disallow.
  • Noindex.
  • Nofollow.

Проверьте все страницы в отчете на предмет соответствия целям. Нет ли в отчете важных disallow страниц? Нет ли мусорных, наоборот, разрешенных к индексированию?

Canonical URL

Канонический URL – это указание в специальном теге страницы оригинала. Если на вашем ресурсе существуют страницы дубликаты, или частичные дубликаты, нужно указывать канонический URL в специальном теге.

Пример: <link rel=»canonical»href=»http://site.ru/blog/index/google»/>

В этом отчете указываются данные об исходных URL, если они были указаны.

Netpeak Checker

Эта программа покажет: проиндексирован сайт или нет, а также, сколько страниц проиндексировано.

Запустите сканирование и выберите пункт Google SERP: URL.

Значения TRUE / FALSE покажут наличие индексации и склейки с другим доменом или URL. А в следующей колонке Вы увидите количество проиндексированных страниц.

Screaming Frog SEO Spider

Еще один сервис-паук для SEO-анализа сайта. Сразу о приятном. Программа имеет бесплатную ограниченную версию, которая может анализировать сайты до 500 страниц. Если же нужно проанализировать ресурс большего размера, Вы можете купить программу за 149 фунтов в год.

Конечно, покупать программу за 150 фунтов для проверки индексации абсолютно не целесообразно. Однако помимо проверки индекса домена и заданных страниц, Screaming Frog проводит полный технический SEO-аудит сайта. Поэтому рекомендуем ознакомиться с программой хотя бы в бесплатной версии.

Xenu Link Sleuth

Старая и надежная программа для аудита архитектуры сайта и поиска нерабочих ссылок. Функционал программы сильно уступает ранее описанным, однако Xenu распространяется бесплатно. Xenu не предназначена для проверки индексации, однако позволит найти базовые ошибки в архитектуре сайта.

Почему может не индексироваться контент

  • Вы запретили доступ к индексации в файле robots.txt.
  • Отсутствует файл sitemap.xml.
  • Существует много дублей, вызванных неправильной работой CMS. Тоже касается битых ссылок и висячих узлов.
  • На сайте присутствует вирус.
  • Низкая скорость загрузки сайта.

Как ускорить индексацию

Прежде чем заняться вопросом ускорения, индексации необходимо устранить SEO-ошибки, т.к. они влияют на доверие поисковой системы к вашему ресурсу. После, можете применить некоторые лайфхаки для ускорения индексации.

Ускорение индексации:

  • Опубликуйте ссылку на ресурс и на каждую страницу в социальной сети Google+ и других социальных сетях.
  • Если Вы выкатываете большое количество страниц, можете обновить файл sitemap.xml в панели вебмастера.
  • Регулярно обновляйте контент на своем ресурсе. Поисковик выработает график посещения и страницы будут быстрее попадать в индекс.

После того как вы научитесь проверять индексацию своего сайта, вы сможете вовремя обнаруживать проблемы со страницами на нем.

поисковых операторов Google [2021 SEO]

Что такое поисковые операторы Google?

Операторы поиска Google — это специальные символы и команды (иногда называемые «расширенными операторами»), которые расширяют возможности обычного текстового поиска. Операторы поиска могут быть полезны во всем: от исследования контента до технического аудита SEO.

Как пользоваться операторами поиска?

Вы можете вводить операторы поиска прямо в поле поиска Google, как если бы вы вводили текстовый поиск:

За исключением особых случаев (таких как оператор «in»), Google будет возвращать стандартные обычные результаты.


Шпаргалка по операторам поиска Google

Ниже вы можете найти все основные операторы обычного поиска, разбитые на три категории: «Базовый», «Расширенный» и «Ненадежный». Основные операторы поиска — это операторы, которые изменяют стандартный текстовый поиск.

I. Основные операторы поиска
«» «никола тесла»
Поместите любую фразу в кавычки, чтобы Google использовал точное соответствие. На отдельных словах всякие синонимы.
OR tesla OR edison
В поиске Google по умолчанию используется логическое И между терминами. Укажите «ИЛИ» для логического ИЛИ (ЗАГЛАВНЫМИ БУКВАМИ).
| тесла | edison
Оператор вертикальной черты (|) идентичен оператору «ИЛИ». Полезно, если ваш Caps-Lock сломан 🙂
() (tesla OR edison) переменный ток
Используйте круглые скобки для группировки операторов и контроля порядка их выполнения.
tesla -motors
Поставьте минус (-) перед любым термином (включая операторы), чтобы исключить этот термин из результатов.
* tesla «рок * ролл»
Звездочка (*) действует как подстановочный знак и соответствует любому слову.
# .. # Объявление Tesla 2015..2017
Используйте (..) с числами с обеих сторон, чтобы соответствовать любому целому числу в этом диапазоне чисел.
$ tesla deposit $ 1000
Искать цены со знаком доллара ($).Вы можете комбинировать ($) и (.) Для получения точных цен, например, 19,99 долларов США.
9,99 € обеды
Найдите цены со знаком евро (€). Похоже, что большинство других знаков валюты не соблюдаются Google.
дюйм 250 км / ч миль / час
Используйте «in» для преобразования между двумя эквивалентными единицами. Это возвращает специальный результат в стиле карты знаний.

Операторы расширенного поиска — это специальные команды, которые изменяют поиск и могут требовать дополнительных параметров (например, доменного имени).Расширенные операторы обычно используются для сужения поиска и более детального изучения результатов.

Было обнаружено, что ненадежные операторы дают непоследовательные результаты или вообще не рекомендуются к использованию. Оператор «link:» официально устарел в начале 2017 года. Похоже, что операторы «inanchor:» все еще используются, но возвращают очень узкие и иногда ненадежные результаты. Используйте операторы на основе ссылок только для начального исследования.

Обратите внимание, что для всех операторов «allin …:» Google будет пытаться применять оператор к каждому последующему термину.Комбинирование операторов allin …: с любыми другими операторами почти никогда не даст желаемых результатов.


Советы и приемы поискового оператора

Наличие всех частей — это только первый шаг в построении головоломки. Настоящая сила поисковых операторов заключается в их объединении.

1. Объединить в цепочку комбинации операторов

Вы можете объединить в цепочку практически любую комбинацию текстового поиска, основных операторов и расширенных операторов:

 "nikola tesla" intitle: "top 5..10 фактов »-сайт: youtube.com inurl: 2015 

Этот поиск возвращает все страницы, на которых упоминается« Никола Тесла »(точное совпадение), в заголовке есть фраза« Основные (X) факты », где X находится в диапазоне от С 5 по 10, не находятся на YouTube.com и имеют где-то в URL-адресе «2015».

2. Выявление плагиата

Пытаетесь выяснить, является ли ваш контент уникальным или кто-то вас плагиат? Используйте уникальный фразу из текста, заключите ее в кавычки (точное соответствие) после оператора «intext:» и исключите свой собственный сайт с помощью «-site:»…

 intext: "они резвились в наших внутренностях" -site: moz.com 

Точно так же вы можете использовать «intitle:» с длинной фразой с точным соответствием, чтобы найти повторяющиеся копии вашего контента.

3. Аудит перехода HTTP-> HTTPS

Переключение сайта с HTTP на HTTPS может оказаться сложной задачей. Дважды проверьте свой прогресс, посмотрев, сколько страниц каждого типа проиндексировал Google. Используйте оператор «site:» в корневом домене, а затем исключите страницы HTTPS с помощью «-inurl:» …

 site: moz.com -inurl: https 

Это поможет вам отследить отставших или найти страницы, которые, возможно, не были повторно просканированы Google.

Это всего лишь несколько примеров почти бесконечного набора комбинаций. Ищете другие примеры? Тебе повезло! Мы создали мега-список из 67 примеров, чтобы подтолкнуть вас к мастерству оператора сайта.


Повышение рейтинга с Moz Pro

Обладая первоклассными данными о ссылках и ключевых словах, а также углубленной аналитикой, Moz Pro обеспечивает отслеживание и аналитику, необходимые для достижения # 1.Воспользуйтесь бесплатной 30-дневной пробной версией и посмотрите, чего вы можете достичь:

Начать бесплатную пробную версию


Продолжайте учиться

Что такое Link Equity? он же «Link Juice» [2021 SEO]

Что такое ссылочный вес?

Равенство ссылок, когда-то в просторечии называемое «ссылочным весом», является фактором ранжирования поисковой системы, основанным на идее, что определенные ссылки передают ценность и авторитет от одной страницы к другой. Это значение зависит от ряда факторов, таких как авторитетность страницы, на которую указывает ссылка, актуальность, статус HTTP и т. Д.Ссылки, передающие ценность, являются одним из многих сигналов, которые Google и другие поисковые системы используют для определения рейтинга страницы в поисковой выдаче.

Ресурсы ссылок и PageRank

Когда многие люди думают о равенстве ссылок, они также думают о PageRank. PageRank был первым алгоритмическим расчетом Google, который использовался для определения того, как сайт должен ранжироваться, в первую очередь на основе профиля обратной ссылки этого сайта. PageRank больше не является основным фактором, определяющим рейтинг сайта; Сейчас это только один из сотен факторов ранжирования, на которые обращает внимание Google, и его важность в наши дни сильно приглушена.

В некоторой степени ссылочный вес можно понять как то, как поток рейтинга страницы передается от одной ссылки к другой. Если на очень авторитетной странице есть ссылка на статью меньшего сайта, это можно интерпретировать как вотум доверия для связанной страницы, передавая определенное количество полномочий через эту ссылку.

Возможно, вы слышали об устаревшей тактике SEO, известной как «формирование PageRank», при которой владелец сайта стратегически выбирает, по каким ссылкам следует переходить, а какие — nofollow, чтобы контролировать поток полномочий от страницы к странице.Хотя это все еще может быть в некоторой степени эффективным при правильных условиях, неправильное использование nofollows — это стратегия, которую мы никогда не рекомендовали бы. Вместо этого сосредоточьтесь на улучшении своей информационной архитектуры и реализации надежной стратегии ранжирования.

Как определяется ссылочный капитал?

Как внутренние, так и внешние ссылки могут передавать ссылочный вес. Когда дело доходит до определения того, будет ли ссылка проходить через эквити, необходимо принять во внимание несколько важных моментов:

  • Уместна ли ссылка? Если вы переходите по ссылке на страницу о ремонте автомобиля из статьи о том, как испечь секретный рецепт бабушкиных маффинов, ссылка, вероятно, не имеет отношения к делу — и Google узнает.Нерелевантные ссылки могут не иметь большого авторитета или ценности.

  • Является ли ссылающийся сайт авторитетным? Ссылки с надежных сайтов, которые укрепили свой авторитет, как правило, передают больше ссылочного капитала, чем ссылки с совершенно новых сайтов, которые только начинают работать.

  • Переходили ли по ссылке? Ссылки, по которым не отслеживаются, сигнализируют поисковым роботам, что их следует игнорировать. У них не будет ссылочного капитала. Однако то, что по ссылке не переходят, не обязательно означает, что она не имеет другого значения.

  • Можно ли сканировать ссылку? Если страница блокирует поисковые роботы через файл robots.txt, поисковому роботу предлагается проигнорировать его, и ссылка не будет передавать значение.

  • Где находится ссылка на странице? Ссылки, скрытые в нижнем колонтитуле страницы или на боковой панели, не имеют такого большого веса, как ссылки в теле содержимого страницы (за некоторыми исключениями). Архитектура сайта помогает Google определить, какой контент наиболее полезен для посетителей, поэтому рассмотрите его логически: каковы намерения посетителя при посещении страницы и как ссылки помогают им достичь этого?

  • Сколько ссылок находится на странице? Если ссылка на ваш сайт одна из многих сотен или тысяч, она может быть не такой ценной, хотя не существует четкого правила об оптимальном количестве ссылок на странице.Однако, помимо простой ссылочной массы, если ваша ссылка потеряна среди многих других, маловероятно, что пользователь найдет ее и нажмет на нее, что еще больше обесценит ее.

  • Каков HTTP-статус связанной страницы? Страницы, которые разрешаются как 200-е или постоянные 301 редиректы, сохранят свой ссылочный вес. Хотя Google заявил, что все перенаправления, включая временные 302, теперь проходят через PageRank, разумно отнестись к этому совету с недоверием. Другие поисковые системы могут не относиться к ним так же, и есть факторы помимо ссылок, которые следует учитывать при планировании стратегии ранжирования.


Продолжайте учиться

Положите свои навыки на работу

Оцените влияние сайта с помощью проводника ссылок

Link Explorer — это инструмент для анализа популярности и обратных ссылок, который позволяет вам исследовать и сравнивать любой сайт в Интернете.

Как узнать, сканируются ли и индексируются ли URL ваших сайтов Google

Это сообщение в блоге на двух (больших) страницах — действующем и промежуточном сайтах:

Часть 1: Как проверить, проиндексировал ли Google ваш действующий сайт

Часть 2: Как проверить, проиндексировал ли Google ваш промежуточный / тестовый сайт


Часть 1:

Как узнать, проиндексировал ли Google мой действующий сайт?

Есть два простых способа узнать:

Использование сайта: оператор запроса

Найдите свой домен в Google следующим образом: site: organicdigital.co

Если ваш сайт проиндексирован, вы увидите список страниц:

Если результаты не возвращаются, у вас могут быть проблемы:

Примечание: на крупных сайтах, хотя вы увидите приблизительное количество проиндексированных страниц, вы сможете увидеть только около 300 из них в результатах поиска.

Проверьте раздел покрытия в Google Search Console

У каждого веб-сайта должна быть учетная запись GSC. На мой взгляд, это лучший инструмент, который может использовать владелец сайта или оптимизатор поисковых систем. Он предоставляет обширную информацию об органической видимости и эффективности вашего сайта.Если у вас его нет, перейдите на официальную страницу GSC, если у вас есть, перейдите в раздел Покрытие, где вы можете увидеть разбивку:

  • Ошибки, обнаруженные при сканировании страниц
  • Страницы, которые заблокированы
  • Действительные проиндексированные страницы
  • Страницы, которые исключены

Если на вашем сайте есть проблемы, они будут отмечены как «ошибка» или «исключены» — и вы сможете найти из причин, по которым они не включаются в поиск, например:

  • Альтернативная страница с правильным каноническим тегом
  • Просканировано — в настоящее время не проиндексировано
  • Дубликат без выбранного пользователем канонического тега
  • Исключено тегом noindex
  • Аномалия сканирования
  • Не найдено (404)

страниц, если ваш сайт не отображается в «действительном» разделе, то у вас могут быть проблемы.

Используйте функцию проверки URL в GSC

Если одни страницы проиндексированы, а другие нет, то вы также можете использовать инструмент проверки URL, чтобы узнать, может ли Google сканировать и проиндексировать определенную страницу или есть ли другие проблемы, препятствующие ее появлению в поиске — это в в верхнем меню и позволит вам проверять по одному URL за раз:

Если ваша страница проиндексирована, она будет содержать следующую информацию:

Если нет, вы получите этот статус, который показывает, когда Google пытался сканировать страницу, и некоторое понимание того, почему она не проиндексирована:

Почему Google не сканирует или не индексирует мои страницы?

Обычно страницу нельзя просканировать или проиндексировать по двум причинам.Это особенно часто встречается, когда новый сайт был запущен или перенесен, а настройки из среды разработки были перенесены.

Директива о запрещении доступа к файлу robots.txt

Здесь блокируется сканирование сайта, каталога или страницы файлом robots.txt.

На каждом сайте должен быть файл robots.txt, который используется для указания поисковым системам, какие разделы вашего сайта должны и не должны сканироваться.

Если он у вас есть, вы найдете его в корневом каталоге под именем robots.txt

https://organicdigital.co/robots.txt

Директивы, предотвращающие сканирование сайта, каталога или страницы, будут следующими:

  Запрещено: /
Запретить: / каталог /
Запретить: /specific_page.html
  

Вы также можете использовать Screaming Frog, чтобы попытаться сканировать ваш сайт. Если это невозможно, вы увидите следующие данные сканирования:

Есть много веских причин для блокировки поисковых систем с помощью этой директивы, но если вы видите что-то похожее на приведенное выше, вам необходимо изменить их, чтобы разрешить сканирование вашего сайта.

Как изменить файл Robots.txt вручную

Если у вас есть доступ к FTP или у вас есть разработчик, вы можете вручную изменить файл robots.txt, чтобы удалить все директивы, которые блокируют сканирование вашего сайта.

Обычно это делает следующая команда:

  Агент пользователя: *
Разрешать: /
  

Как изменить файл Robots.txt в WordPress

Если у вас установлен плагин Yoast, вы можете редактировать файл напрямую через Tools -> File Editor Section — перейдите по этой ссылке, чтобы узнать, как это сделать.

Как изменить файл Robots.txt в Magento

Перейдите к содержанию C -> Дизайн -> Конфигурация , щелкните в соответствующем представлении магазина и отредактируйте «Роботы поисковых систем»

Для метатега роботов установлено значение Noindex и / или Nofollow

Помимо файла robots.txt, вы также можете проверить метатег robots в исходном коде своего сайта и убедиться, что он не препятствует сканированию поисковыми системами.

Если вы проверяете свой исходный код, если вы не видите метатег robots, или он установлен на «index» или «index, follow» — тогда проблема не в этом.Однако, если вы видите, что там написано «noindex», это означает, что ваша страница может быть просканирована, но не будет проиндексирована:

Опять же, вы можете использовать Screaming Frog, чтобы проверить статус ваших тегов роботов на вашем сайте. Если для вашего тега установлено значение noindex, nofollow не выйдет за пределы главной страницы:

Если для него просто установлено значение noindex, весь сайт все еще можно сканировать, но не индексировать:

Как изменить файл метатега роботов вручную

Опять же, откройте страницу / шаблон вашего сайта напрямую и замените / добавьте следующий тег:

    

Как изменить метатег роботов в WordPress

Есть два способа сделать это — если проблема касается всего сайта, перейдите в «Настройки » -> «Чтение » и убедитесь, что флажок «Не разрешать поисковым системам индексировать этот сайт» не отмечен:

Я могу ошибаться, но я думаю, что единственный способ настроить определенную страницу или сообщение на index или noindex, если вы используете Yoast, поэтому перейдите на страницу / сообщение и проверьте следующий параметр внизу страницы:

Как изменить метатег роботов в Magento

Как и раньше, перейдите в меню Content -> Design -> Configuration , щелкните в соответствующем представлении магазина и внесите изменения в раскрывающийся вариант «Роботы по умолчанию»:

Мой сайт / страницы могут сканироваться и индексироваться Google — что дальше?

Как только вы убедитесь, что файл robots.txt и метатег robots верны, вы можете снова использовать инструмент Inspect URL, чтобы проверить свою страницу и запросить, чтобы Google сканировал и индексировал вашу страницу:

У меня также есть учетная запись для веб-мастеров Bing!

А ты? Я думал, что я единственный. Хорошо, вы можете делать почти все то же, что написано в этой статье, в Bing Webmaster Tools, как и в GSC, поэтому проверьте URL-адрес и индексирование запроса:

Я сделал все это, а мой сайт / страницы все еще не проиндексированы!

В этом случае вам нужно глубже изучить конфигурацию и функциональность вашего веб-сайта, чтобы определить, какие еще проблемы могут быть.Я могу помочь вам, если вы заполните контактную форму ниже.


Часть 2:

Как: проверить, проиндексирован ли ваш промежуточный сайт в Google

В жизни можно быть уверенным только в трех вещах: смерть, налоги и индексирование вашего тестового сайта Google.

Очень редко вы сталкиваетесь с запуском нового сайта, в какой-то момент не осознавая, что промежуточный сервер оставлен открытым для ботов, которые могут сканировать и индексировать.

Это не обязательно конец света, если поисковая система
должны были проиндексировать тестовый сайт, так как это довольно легко решить, но если вы
долгосрочное использование тестовой среды для разработки новых функций наряду с живым
сайта, то вам необходимо как можно раньше убедиться, что он правильно защищен, чтобы
избегать проблем с дублированным контентом и гарантировать, что люди в реальной жизни не будут посещать и
взаимодействовать (т.е. попробуй что нибудь купить).

Раньше я разработчик и, вероятно, сам делал эти ошибки не раз, но тогда у меня не было SEO, который постоянно указывал мне на эти вещи, что было занозой в заднице (тогда старая школьная брошюра пришла … веб-дизайнеры, которые не понимали ограничений таблиц и встроенного CSS, где мне было больно).

Все следующие методы являются испытанными и испытанными.
что я использовал для выявления этих проблем в дикой природе, хотя для защиты личности
моих клиентов и их разработчиков, я самоотверженно решил создать
несколько тестовых сайтов, использующих контент моего собственного сайта, чтобы проиллюстрировать, что
нужно сделать, это такие:

тест.Organicdigital.co
alitis.co.uk

Хотя к тому времени, когда вы это прочтете, я последую своему совету и уберу их, мне нужна вся доступная видимость, последнее, что мне нужно, это проиндексированные тестовые сайты, содержащие мне обратно.

1)

Google Search Console (GSC) Свойство домена

Одна из замечательных особенностей нового GSC заключается в том, что вы можете настроить свойства домена, которые дают вам ключевую информацию обо всех поддоменах, связанных с вашим веб-сайтом — как по HTTP, так и по HTTPS.Чтобы настроить это, просто выберите параметр домена при добавлении свойства (вам также необходимо выполнить потенциально не очень простую задачу добавления записи TXT в DNS вашего домена):

Существует целый ряд причин, по которым свойство домена полезно, в данном случае это потому, что если у вас есть тестовый сайт, настроенный на поддомене, и он генерирует показы и клики в поиске, вы можете определить это в разделе «Производительность », Отфильтровав или упорядочив страницы:

Кроме того, вам следует также проверить раздел «покрытие» — в
в некоторых случаях Google проиндексирует ваш контент:

В других случаях они обнаружат, что у вас
дублировать контент на месте и любезно воздерживаться от индексации, в этом случае вы
найдет его в разделе «Дублировать, Google выбрал другой канонический
чем пользователь »:

Даже если это так, вы все равно должны постараться
он не ползет вперед.

2)

Проверьте результаты выдачи Google с помощью группы ссылок

Если у вас нет доступа к свойствам домена GSC или какой-либо доступ
в GSC (если нет, то почему?), то вы можете проверить результаты поиска, чтобы увидеть, есть ли какие-либо тестовые URL-адреса
попали в индекс.

Это также удобный метод при продвижении к новому бизнесу,
Что может быть лучше для привлечения потенциального клиента, чем заставить его внутреннего или
внешняя команда разработчиков выглядит так, будто играет в кости со смертью видимости в поисковой сети
позволяя этому случиться в первую очередь, и что вы здесь, чтобы спасти
день.

Шаги следующие:

i) установить ссылку
Расширение Clump Google Chrome, которое позволяет копировать и вставлять несколько URL-адресов.
со страницы в более полезное место, например в Excel.

ii) Измените настройки группы ссылок следующим образом:

Самое важное, на что следует обратить внимание, — это действие «скопировано в буфер обмена».
— последнее, что вам нужно здесь, — это открыть до сотни URL-адресов на
однажды.

iii) Перейдите в свой любимый (или местный) TLD Google, нажмите «Настройки», которые вы
должен увидеть в правом нижнем углу страницы, и выберите «Настройки поиска», где
вы можете установить для «результатов на страницу» значение 100.

iv) Вернитесь на главную страницу Google и используйте запрос «site:».
оператор и добавьте свой домен. если ты
используйте www или аналогичный, удалите это — команда будет иметь следующий вид:

site: organicdigital.co

Вам будет представлен образец до 300 URL-адресов.
в настоящее время индексируется Google по всем поддоменам. Хотя вы можете вручную просмотреть каждый результат
для обнаружения мошеннических сайтов:

Я считаю, что гораздо быстрее и проще щелкнуть правой кнопкой мыши и перетащить все
путь к низу страницы.Ты
будет знать, работает ли Link Clump, поскольку вы увидите следующее,
обозначают, что ссылки выбираются и копируются:

Повторите это для результатов поиска 2 и 3, если они доступны, и
URL-адреса вставляются в Excel, используйте сортировку по алфавиту, чтобы легко идентифицировать проиндексированные
контент во всех соответствующих поддоменах.

3)

Поиск текста, уникального для вашего сайта

Приведенные выше методы работают, если ваш тестовый сайт размещен на
поддомен в том же домене, что и ваш действующий веб-сайт.Однако, если ваш тестовый сайт находится в другом месте,
например test.webdevcompany.com, то они не будут работать. В этом случае этот или следующие методы
мог бы.

Найдите контент, который, по вашему мнению, является уникальным для вашего веб-сайта — в моем случае я использовал строку: «Повысьте естественную видимость и посещаемость вашего веб-сайта» — а затем выполните поиск в кавычках. Если тестовый сайт, содержащий этот контент, был проиндексирован, этот поиск должен выявить его:

Как видите, появляются домашние страницы на основном сайте, тестовом субдомене и отдельном тестовом домене.Вы также можете случайно обнаружить конкурента, который скопировал ваш контент. Кто-то воспримет это как комплимент, кто-то выдаст DMCA — решать вам, но меньше всего вам нужно, чтобы кто-то превзошел вас по вашей собственной копии.

4)

Обход сайта с помощью Screaming Frog

Полагаю, вы занимаетесь SEO и поэтому используете Screaming Frog. Если какой-либо из этих ответов отрицательный, то хорошо, что вы так далеко зашли в эту статью (позвольте мне предположить, что вы разработчик, который бросил чепуху и хочет прикрыть свою задницу, прежде чем кто-то узнает?).

Если у вас его нет, скачайте здесь.

В основных настройках отметьте «Сканировать все субдомены». Вы также можете установить флажок «Follow Internal‘ nofollow ’»
поскольку это может быть в некоторых тестовых средах.

После завершения сканирования просмотрите список, чтобы увидеть, есть ли
есть любые внутренние ссылки на тестовые сайты.
Я недавно наткнулся на это, когда появился новый сайт Drupal, но
со всеми внутренними ссылками в сообщениях блога, указывающими на бета-поддомен:

Затем вы можете щелкнуть каждый тестовый URL-адрес и щелкнуть InLinks на
внизу, чтобы найти оскорбительную внутреннюю ссылку с действующего сайта на тестовый.В этом случае я изменил ссылку «Связаться с нами»
в карте сайта, чтобы указать на тестовый URL:

После обнаружения исправьте и переползайте, пока они не исчезнут.
внутренние ссылки, ведущие посетителей в другое место.
Если вы используете WordPress, используйте плагин поиска / замены, чтобы найти все тестовые
URL-адреса и замените их действующим.

5)

Проверьте имена хостов Google Analytics

Если на вашем тестовом сайте используется тот же аккаунт Google Analytics,
код отслеживания установлен как ваш действующий сайт, вы сможете обнаружить это в
GA, если вы перейдете в такой раздел, как «Поведение» -> «Контент сайта» -> «Все
Страницы »и выберите« Имя хоста »в качестве дополнительного параметра:

Кроме того, вы также можете дополнительно отфильтровать данные с помощью
исключение из отчета всех посещений основного домена, в результате чего все
другие экземпляры в списке.В
Помимо тестовых сайтов, вы также можете обнаружить, что спам GA запускается на 3 rd
сайт партии:

У использования одного и того же идентификатора отслеживания GA есть свои плюсы и минусы.
работает как в вашей реальной, так и в тестовой среде, но лично я не вижу
причина иметь отдельные учетные записи и вместо этого создавать несколько представлений в
ваша единственная учетная запись. Для действующего сайта
настроить фильтр, чтобы включить трафик только к действующему имени хоста, и наоборот
для тестового сайта.

Как удалить и предотвратить индексирование тестового сайта

Итак, вы обнаружили свой тестовый сайт в индексе с помощью одного
описанных выше методов, или вы хотите убедиться, что этого не происходит в
первое место.Следующее поможет
с этим:

1) Удалить URL через GSC

Если ваш сайт проиндексирован, генерирует ли он трафик или
нет, лучше удалить его. Делать
для этого вы можете использовать раздел «Удалить URL-адреса» из «старого» GSC.

Обратите внимание, это не будет работать на уровне свойств домена, так как эти
не обслуживаются в старом GSC. Чтобы
для этого вам необходимо настроить свойство для отдельного теста
домен.

После настройки «Перейти к старой версии» и перейти в «Индекс Google».
-> «Удалить URL-адреса».Отсюда выберите «Временно
Hide »и введите одинарную косую черту в качестве URL-адреса, который вы хотите заблокировать.
отправить весь сайт на удаление:

Это приведет к удалению вашего сайта из поисковой выдачи на 90 дней, в
Чтобы гарантировать, что он не вернется, необходимо предпринять дальнейшие шаги. Достаточно одного из следующих
выполняться независимо от того, можете ли вы Удалить через GSC)

2) Установите тег роботов на noindex на тестовом сайте

Попросите своих разработчиков убедиться, что при работе в тестовом домене
каждая страница на сайте генерирует тег noindex для роботов:

    

Если ваш сайт — WordPress, вы можете установить это через «Настройки» -> «Чтение» и выбрав «Запретить поисковым системам индексировать этот сайт»:

Какой бы код или настройки вы не использовали для предотвращения тестирования сайта
от индексации, вы должны убедиться, что он не переносится на действующий сайт при появлении новых
контент или функциональность становятся живыми.
Настройки тестового сайта — одни из самых распространенных и надежных.
способы испортить видимость вашего действующего сайта.

3) Защитите свой тестовый сайт паролем

Через веб-панель управления или через сервер, пароль
защитить каталог, в котором находится ваш тестовый сайт. Есть множество способов сделать это — лучший
ставка заключается в том, чтобы попросить вашу хостинговую компанию или разработчиков настроить это, или там
есть много хороших ресурсов, которые покажут вам, как это сделать, например:

https: // one-docs.com / tools / basic-auth

После блокировки вы должны увидеть окно предупреждения при попытке
доступ к тестовой площадке:

https://alitis.co.uk/

Это предотвратит сканирование и индексирование поисковыми системами
сайт.

4) Удалить сайт и вернуть статус страницы 410

Если вам больше не нужен тестовый участок, вы можете просто
удалите это. Когда поисковые системы пытаются
Посетите страницы, если они дольше живут, они увидят, что страницы удалены. По умолчанию неработающая страница возвращает статус
404 («Не найдено») — хотя это приведет к деиндексации сайта со временем, он
займет некоторое время, так как будут последующие посещения, чтобы увидеть, вернулась ли сломанная страница.

Вместо этого установите статус 410 («Ушел навсегда»), который вернет следующее сообщение:

Чтобы сделать это во всем домене, удалите сайт и
оставьте файл .htaccess на месте с помощью следующей команды:

  Перенаправление 410/ 

Это обеспечит деиндексирование сайта в первый раз.
запроса (или, по крайней мере, быстрее, чем 404)

5) Заблокировать через robots.txt

Вы можете заблокировать сканирование сайта, реализовав
следующие команды в файле robots.txt файл:

  Агент пользователя: *
Disallow: /  

Это предотвратит сканирование сайта ботами. Примечание: если ваш тестовый сайт в настоящее время проиндексирован,
и вы пошли по пути добавления тегов noindex на сайт, не добавляйте
команду robots.txt до тех пор, пока все страницы не будут деиндексированы. Если вы добавите это до того, как все страницы будут деиндексированы,
это предотвратит их сканирование и обнаружение тега роботов, поэтому
страницы останутся проиндексированными.

И все — я надеюсь, что вам будет достаточно, чтобы
найти, деиндексировать и предотвратить повторное сканирование вашего теста.

Но помни

Я не могу это подчеркнуть — если вы решите реализовать
метатеги robots или robots.txt, которые запрещают сканирование всем ботам и
индексируя свой тестовый сайт, убедитесь, что когда вы запускаете тестовый сайт, что вы делаете
не переносите эти конфигурации на действующий сайт, так как вы рискуете потерять свой
органическая видимость в целом.

И мы все там были, да?

Как работает поиск Google для начинающих

Google получает информацию из множества различных источников, в том числе:

  • Интернет-страницы
  • Пользовательский контент, например профиль вашей компании и пользовательские материалы на Картах Google
  • Сканирование книг
  • Общедоступные базы данных в Интернете
  • Многие другие источники

Однако эта страница ориентирована на веб-страницы.Google выполняет три основных шага для получения результатов
с веб-страниц:

Ползание

Первый шаг — выяснить, какие страницы существуют в сети. Нет центрального реестра
все веб-страницы, поэтому Google должен постоянно искать новые страницы и добавлять их в свой список
известные страницы. Некоторые страницы известны, потому что Google уже посещал их раньше. Другие страницы
обнаруживаются, когда Google переходит по ссылке с известной страницы на новую. Еще другие страницы
обнаруживаются, когда владелец веб-сайта отправляет список страниц (карта сайта )
для сканирования Google.Если вы используете управляемый веб-хостинг, например Wix или Blogger, они могут
скажите Google сканировать любые обновленные или новые страницы, которые вы создаете.

Как только Google обнаруживает URL-адрес страницы, он посещает или сканирует , страницу, чтобы узнать, что
в теме. Google отображает страницу и анализирует как текстовое, так и нетекстовое содержание, а также в целом
визуальный макет, чтобы решить, где он может отображаться в результатах поиска. Тем лучше, что Google может
понимаем ваш сайт, тем лучше мы сможем сопоставить его с людьми, которые ищут ваш контент.

Для улучшения сканирования вашего сайта:

  • Убедитесь, что Google может получить доступ к страницам вашего сайта и что они выглядят правильно. Google
    получает доступ в Интернет как анонимный пользователь (пользователь без паролей или информации). Google
    должен иметь возможность видеть все изображения и другие элементы страницы, чтобы иметь возможность
    поймите это правильно. Вы можете выполнить быструю проверку, введя URL своей страницы в поле
    Удобство для мобильных
    Тестовое задание.
  • Если вы создали или обновили одну страницу, вы можете отправить
    индивидуальный URL-адрес в Google.Чтобы сообщить Google сразу о многих новых или обновленных страницах, используйте
    карту сайта.
  • Если вы просите Google сканировать только одну страницу, сделайте ее своей домашней. Ваш
    Домашняя страница — это самая важная страница на вашем сайте, с точки зрения Google. Поощрять
    полное сканирование сайта, убедитесь, что ваша главная страница (и все страницы) содержат хороший сайт
    система навигации, которая ссылается на все важные разделы и страницы вашего сайта; это помогает
    пользователи (и Google) ориентируются на вашем сайте.Для небольших сайтов (менее 1000 страниц)
    информировать Google только о вашей домашней странице — это все, что вам нужно, при условии, что Google может охватить все
    ваши другие страницы, следуя пути ссылок, которые начинаются с вашей домашней страницы.
  • Свяжите свою страницу с другой страницей, о которой Google уже знает. Однако
    имейте в виду, что ссылки в рекламных объявлениях, ссылки, за которые вы платите на других сайтах, ссылки в
    комментарии или другие ссылки, которые не следуют за Google
    Google не будет следовать рекомендациям для веб-мастеров.

Google не принимает оплату за более частое сканирование сайта или за его ранжирование
выше. Если кто-то говорит вам иное, он ошибается.

Индексирование

После того, как страница обнаружена, Google пытается понять, о чем она. Этот процесс
называется с индексом . Google анализирует содержание страницы, каталогизирует изображения и
видеофайлы, встроенные в страницу, и в противном случае пытается понять страницу. Эта информация
хранится в индексе Google , огромной базе данных, хранящейся на многих компьютерах.

Для улучшения индексации вашей страницы:

  • Создавайте короткие содержательные заголовки страниц.
  • Используйте заголовки страниц, которые передают тему страницы.
  • Используйте текст, а не изображения для передачи контента. Google может понимать некоторые изображения и видео,
    но не так хорошо, как он может понимать текст. Как минимум, аннотируйте свой
    видео и
    изображения с замещающим текстом и др.
    атрибуты в зависимости от обстоятельств.

Обслуживание (и рейтинг)

Когда пользователь вводит запрос, Google пытается найти наиболее релевантный ответ в его индексе.
основанный на многих факторах.Google пытается найти ответы наивысшего качества и учитывать
другие соображения, которые обеспечат лучший пользовательский опыт и наиболее подходящий ответ,
учитывая такие вещи, как местоположение пользователя, язык и устройство (настольный компьютер или телефон).
Например, поиск по запросу «мастерская по ремонту велосипедов» покажет пользователю разные ответы.
в Париже, чем пользователю в Гонконге. Google не принимает оплату за ранжирование страниц
выше, и ранжирование выполняется программно.

Для улучшения обслуживания и рейтинга:

Еще более длинная версия

Хотите получить более подробную информацию о том, как работает поиск? Прочтите наш расширенный
руководство по работе Google Search.

Попросите Google повторно сканировать ваш веб-сайт

Если вы недавно добавляли или вносили изменения на страницу своего сайта, вы можете запросить, чтобы Google
повторно проиндексируйте свою страницу, используя любой из перечисленных здесь методов.Вы не можете запросить индексацию для URL
что вам не удается.

Вы используете размещенную платформу управления контентом (например, Blogger или WordPress)? В
в большинстве случаев платформа автоматически отправляет ваш новый контент в поисковые системы. Проверьте свои
статьи поддержки платформы.

Общие правила

  • Сканирование может занять от нескольких дней до нескольких недель. Будьте терпеливы и следите за прогрессом
    используя индекс
    Отчет о состоянии или URL
    Инструмент для осмотра.
  • Все описанные здесь методы имеют примерно одинаковое время отклика.
  • Существует квота на отправку отдельных URL-адресов.
  • Если запросить повторное сканирование для одного и того же URL-адреса или карты сайта несколько раз, он не просканируется
    Быстрее.

Методы запроса сканирования

Используйте инструмент проверки URL-адресов (всего несколько URL-адресов)

Примечание: Вы должны быть владельцем
или полноправный пользователь свойства Search Console, чтобы иметь возможность
запросить индексацию в инструменте проверки URL.

Используйте URL
Инструмент проверки для запроса сканирования отдельных URL-адресов. Обратите внимание: если у вас большие числа
URL-адресов, вместо этого отправьте карту сайта.

Чтобы отправить URL в индекс:

  1. Следуйте общим рекомендациям.
  2. Проверьте URL-адрес с помощью URL-адреса
    Инструмент для осмотра.
  3. Выбрать Запросить индексирование . Инструмент запустит живую проверку URL-адреса, чтобы увидеть
    есть ли у него какие-либо очевидные проблемы с индексацией, и если нет, страница будет поставлена ​​в очередь для индексации.Если инструмент обнаружит проблемы со страницей, попробуйте их исправить.

Запрос на сканирование не гарантирует, что включение в результаты поиска произойдет мгновенно.
или даже вообще. Наши системы отдают предпочтение быстрому размещению качественного и полезного контента.

Отправить карту сайта (сразу несколько URL)

Карта сайта — это важный способ для Google обнаруживать URL-адреса на вашем сайте. Карта сайта также может
включать дополнительные метаданные о версиях на других языках, видео, изображениях или
новостные страницы.Узнайте, как создать и отправить
карта сайта.

Отправить отзыв о документации

5 самых распространенных проблем индексирования Google в зависимости от размера веб-сайта

Google открыто заявляет о том, что не индексирует все страницы, которые может найти. Используя Google Search Console, вы можете увидеть страницы вашего сайта, которые не проиндексированы.

Google Search Console также предоставляет полезную информацию о конкретной проблеме, из-за которой страница не проиндексировалась.

Эти проблемы включают ошибки сервера, ошибки 404 и намеки на то, что на странице может быть тонкое или дублированное содержимое.

Но мы никогда не увидим никаких данных, показывающих, какие проблемы наиболее распространены во всей сети.

Итак… Я решил сам собирать данные и составлять статистику!

В этой статье мы рассмотрим наиболее популярные проблемы индексации, из-за которых ваши страницы не отображаются в Google Поиске.

Индексирование 101

Индексирование похоже на создание библиотеки, за исключением того, что вместо книг Google работает с веб-сайтами.

Если вы хотите, чтобы ваши страницы отображались в поиске, они должны быть правильно проиндексированы. Проще говоря, Google должен их найти и сохранить.

Реклама

Продолжить чтение ниже

Затем Google может проанализировать их контент, чтобы решить, для каких запросов они могут быть релевантными.

Индексирование — необходимое условие для получения органического трафика от Google. А чем больше проиндексируется страниц вашего сайта, тем больше у вас шансов появиться в результатах поиска.

Вот почему для вас очень важно знать, может ли Google индексировать ваш контент.

Вот что я сделал для выявления проблем с индексированием

Мои повседневные задачи включают оптимизацию веб-сайтов с технической точки зрения SEO, чтобы сделать их более заметными в Google, и в результате у меня есть доступ к нескольким десяткам сайтов в поиске Google. Консоль.

Я решил использовать это, чтобы, надеюсь, сделать популярные проблемы индексации… ну, менее популярными.

Для прозрачности я сломал методологию, которая привела меня к некоторым интересным выводам.

Методология

Я начал с создания образца страниц, объединив данные из двух источников:

  • Я использовал данные наших клиентов, которые были доступны мне.
  • Я попросил других SEO-специалистов поделиться со мной анонимными данными, опубликовав опрос в Twitter и напрямую связавшись с некоторыми SEO-специалистами.

Реклама

Продолжить чтение ниже

SEO-специалисты, мне нужно 3-10 минут вашего времени.
Можете ли вы помочь мне с моими исследованиями по индексации и поделиться со мной неконфиденциальной статистикой GSC?
Когда я найду что-нибудь интересное, я опубликую об этом статью.

Заранее спасибо! Пожалуйста, R / T

🙏🙏 https://t.co/vAwMulQtsx

— Томек Рудски (@TomekRudzki) 9 ноября 2020 г.

Оба оказались полезными источниками информации.

Исключение неиндексируемых страниц

В ваших интересах не индексировать некоторые страницы. К ним относятся старые URL-адреса, статьи, которые больше не актуальны, параметры фильтрации в электронной торговле и многое другое.

Веб-мастера могут сделать так, чтобы Google игнорировал их разными способами, включая роботов.txt и тег noindex.

Принятие во внимание таких страниц отрицательно повлияет на качество моих выводов, поэтому я удалил страницы, которые соответствовали любому из критериев, приведенных ниже, из образца:

  • Заблокировано файлом robots.txt.
  • Помечено как noindex.
  • Перенаправлено.
  • Возвращает код состояния HTTP 404.

Исключение малоценных страниц

Чтобы еще больше улучшить качество моего образца, я рассмотрел только те страницы, которые включены в карты сайта.

Исходя из моего опыта, карты сайта являются наиболее четким представлением ценных URL-адресов с данного веб-сайта.

Конечно, есть много сайтов, на картах которых есть мусор. Некоторые даже включают одни и те же URL-адреса в свои карты сайта и файлы robots.txt.

Но я позаботился об этом на предыдущем шаге.

Категоризация данных

Я обнаружил, что популярные проблемы индексирования зависят от размера веб-сайта.

Вот как я разделил данные:

  • Небольшие веб-сайты (до 10 000 страниц).
  • Средние сайты (от 10к до 100к страниц).
  • Крупные сайты (до миллиона страниц).
  • Огромные сайты (более 1 миллиона страниц).

Из-за различий в размере веб-сайтов в моей выборке мне пришлось найти способ нормализовать данные.

Один очень большой веб-сайт, борющийся с определенной проблемой, может перевесить проблемы, которые могут иметь другие, более мелкие веб-сайты.

Реклама

Продолжить чтение ниже

Итак, я просмотрел каждый веб-сайт индивидуально, чтобы отсортировать проблемы индексации, с которыми они борются.Затем я назначил баллы проблемам индексации в зависимости от количества страниц, затронутых данной проблемой на данном веб-сайте.

И вердикт …

Вот пять основных проблем, которые я обнаружил на веб-сайтах любого размера.

  1. Просканировано — в настоящее время не проиндексировано (проблема качества).
  2. Повторяющееся содержимое.
  3. Обнаружено — в настоящее время не индексируется (бюджет сканирования / проблема качества).
  4. Мягкая 404.
  5. Проблема со сканированием.

Давайте разберем их.

Качество

Проблемы с качеством заключаются в том, что ваши страницы тонкие по содержанию, вводящие в заблуждение или чрезмерно предвзятые.

Если на вашей странице нет уникального ценного содержания, которое Google хочет показать пользователям, вам будет сложно его проиндексировать (и не стоит удивляться).

Дублированное содержание

Google может распознать некоторые из ваших страниц как дублированный контент, даже если вы не планировали этого.

Распространенная проблема — канонические теги, указывающие на разные страницы.В результате исходная страница не индексируется.

Объявление

Продолжить чтение ниже

Если у вас действительно дублированный контент, используйте атрибут канонического тега или 301 редирект.

Это поможет вам убедиться, что одни и те же страницы вашего сайта не конкурируют друг с другом за просмотры, клики и ссылки.

Бюджет сканирования

Что такое бюджет сканирования? В зависимости от нескольких факторов робот Googlebot будет сканировать только определенное количество URL-адресов на каждом веб-сайте.

Это означает, что оптимизация жизненно важна; не позволяйте ему тратить время на страницы, которые вам не интересны.

Soft 404s

Ошибки 404 означают, что вы отправили удаленную или несуществующую страницу для индексации. Программные 404 отображают информацию «не найден», но не возвращают на сервер код состояния HTTP 404.

Распространенная ошибка — перенаправление удаленных страниц на другие, не относящиеся к делу.

Множественные перенаправления также могут отображаться как мягкие ошибки 404. Стремитесь максимально сократить цепочки переадресации.

Ошибка сканирования

Существует много проблем со сканированием, но одна из важных — это проблема с файлом robots.txt. Если робот Googlebot находит файл robots.txt для вашего сайта, но не может получить к нему доступ, он вообще не будет сканировать этот сайт.

Реклама

Продолжить чтение ниже

Наконец, давайте посмотрим на результаты для разных размеров веб-сайтов.

Маленькие веб-сайты

Размер выборки: 44 сайта

  1. Просканировано, в настоящее время не проиндексировано (проблема качества или бюджета сканирования).
  2. Повторяющееся содержимое.
  3. Проблема с обходным бюджетом.
  4. Мягкая 404.
  5. Проблема со сканированием.

Средние сайты

Размер выборки: 8 сайтов

  1. Повторяющийся контент.
  2. Обнаружено, в настоящее время не проиндексировано (бюджет сканирования / проблема качества).
  3. Просканировано, в настоящее время не проиндексировано (проблема качества).
  4. soft 404 (качественный выпуск).
  5. Проблема со сканированием.

Большие сайты

Размер выборки: 9 сайтов

  1. Просканировано, в настоящее время не проиндексировано (проблема качества).
  2. Обнаружено, в настоящее время не проиндексировано (бюджет сканирования / проблема качества).
  3. Повторяющееся содержимое.
  4. Мягкая 404.
  5. Проблема со сканированием.

Огромные сайты

Размер выборки: 9 сайтов

  1. Просканировано, в настоящее время не проиндексировано (проблема качества).
  2. Обнаружено, в настоящее время не проиндексировано (бюджет сканирования / проблема качества).
  3. Дублированный контент (дубликат, отправленный URL не выбран как канонический).
  4. Мягкая 404.
  5. Проблема со сканированием.

Ключевые выводы об общих проблемах индексирования

Интересно, что, согласно этим результатам, два размера веб-сайтов страдают от одних и тех же проблем. Это показывает, насколько сложно поддерживать качество в случае крупных веб-сайтов.

Реклама

Читать ниже

  • Больше 100k, но меньше 1 миллиона.
  • Больше 1 миллиона.

Выводы, однако, таковы:

  • Даже относительно небольшие веб-сайты (10k +) могут быть не полностью проиндексированы из-за недостаточного бюджета сканирования.
  • Чем больше размер веб-сайта, тем серьезнее становятся проблемы с бюджетом на сканирование и качеством.
  • Проблема дублирования контента серьезная, но ее характер меняется в зависимости от веб-сайта.

П.С. Примечание об URL-адресах, неизвестных для Google

В ходе исследования я понял, что существует еще одна распространенная проблема, препятствующая индексации страниц.

Возможно, он не занял свое место в приведенных выше рейтингах, но по-прежнему имеет большое значение, и я был удивлен, увидев, что он по-прежнему так популярен.

Я говорю о страницах-сиротах.

Некоторые страницы вашего веб-сайта могут не иметь внутренних ссылок, ведущих на них.

Реклама

Продолжить чтение ниже

Если у робота Google нет пути для поиска страницы на вашем веб-сайте, он может не найти ее вообще.

Какое решение? Добавьте ссылки со связанных страниц.

Вы также можете исправить это вручную, добавив потерянную страницу в карту сайта. К сожалению, многие веб-мастера до сих пор пренебрегают этим.

Дополнительные ресурсы:

8 способов быстро проиндексировать ваши страницы в Google // WEBRIS

Если страница не находится в индексе Google, вероятность того, что она получит органический трафик, составляет 0%.

Индексация, если говорить упрощенно, — это шаг 2 в процессе ранжирования Google:

  1. Ползание
  2. Индексирование
  3. Рейтинг

Эта статья посвящена тому, как заставить Googlebot индексировать больше страниц на вашем сайте быстрее.

3 подсказки для 3-х потенциальных клиентов от Google

Мы помогли сотням веб-сайтов получить больше потенциальных клиентов с помощью поиска Google. Нажмите ниже, чтобы получить бесплатную инструкцию.

Как проверить, проиндексированы ли ваши страницы Google

Первый шаг — понять, каков уровень индексации вашего веб-сайта.

Коэффициент индексации = количество страниц в индексе Google / количество страниц на вашем сайте

Вы можете узнать, сколько страниц ваш веб-сайт проиндексировал, в отчете Google Search Console о статусе индексации.

Если вы видите ошибки или большое количество страниц вне индекса:

  • В вашей карте сайта могут быть неиндексируемые URL-адреса (т. Е. Страницы, настроенные на NOINDEX, заблокированные через robots.txt или требующие входа пользователя)
  • На вашем сайте может быть большое количество «некачественных» или повторяющихся страниц, которые Google считает недостойными
  • Вашему сайту может не хватить «авторитета», чтобы оправдать все страницы

Подробные сведения можно найти в таблице ниже (это отличная новая функция в обновленной консоли поиска Google).

Как проиндексировать страницы вашего сайта

Ненавижу быть клише, но вам действительно нужно предоставить правильный интерфейс, чтобы привлечь внимание Google. Если ваш сайт не соответствует рекомендациям Google в отношении доверия, авторитета и качества, эти советы, скорее всего, вам не подойдут.

С учетом сказанного, вы можете использовать эту тактику для улучшения индексации вашего сайта.

1. Использовать «Выбрать как Google»

Google Search Console имеет функцию, позволяющую вводить URL-адрес для Google для «Fetch».После отправки робот Googlebot посетит вашу страницу и проиндексирует ее.

Вот как это сделать…

  • Войти в Google Search Console
  • Перейти к сканированию и выборке как Google
  • Возьмите URL, который вы хотите проиндексировать, и вставьте его в строку поиска
  • Нажмите кнопку Получить
  • После того, как Google найдет URL, нажмите Отправить в индекс

Предполагая, что страница индексируется, она будет загружена в течение нескольких часов.

2. Используйте внутренние ссылки

Поисковые системы перемещаются со страницы на страницу по ссылкам HTML.

Изображение предоставлено

Мы можем использовать авторитетные страницы на вашем сайте, чтобы привлечь внимание других. Мне нравится использовать отчет Ahrefs «Лучшие страницы по ссылкам».

В этом отчете перечислены наиболее авторитетные страницы моего сайта — я могу просто добавить отсюда внутреннюю ссылку на страницу, которая требует справедливости.

Важно отметить, что две взаимосвязанные страницы должны быть релевантными — не рекомендуется связывать несвязанные страницы вместе.

Прочтите мое руководство по бункерам внутреннего связывания

3. Блокировать страницы низкого качества из индекса Google

Хотя контент является краеугольным камнем качественного веб-сайта, неправильный контент может стать вашей кончиной. Слишком большое количество страниц низкого качества может уменьшить количество сканирований, индексации и ранжирования вашего сайта Google.

По этой причине мы хотим периодически «обрезать» наш веб-сайт, удаляя ненужные страницы.

Страницы, не представляющие никакой ценности, должны быть:

  • Установить NOINDEX .Когда страница все еще имеет ценность для вашей аудитории, но не для поисковых систем (например, страницы с благодарностью, платные целевые страницы и т. Д.).
  • Заблокировано сканированием файла Robots.txt . Когда весь набор страниц имеет ценность для вашей аудитории, но не для поисковых систем (например, архивы, пресс-релизы).
  • 301 перенаправлено . Когда страница не имеет ценности для вашей аудитории или поисковых систем, но имеет существующий трафик или ссылки (подумайте о старых сообщениях в блогах со ссылками).
  • Удален (404) .Когда страница не имеет ценности для вашей аудитории или поисковых систем и не имеет существующего трафика или ссылок.

Мы создали инструмент для аудита контента, который поможет вам в этом процессе.

4. Включите страницу в карту сайта

Ваша карта сайта — это руководство, которое поможет поисковым системам понять, какие страницы вашего сайта важны.

Наличие страницы в вашей карте сайта НЕ гарантирует индексацию, но отсутствие важных страниц приведет к снижению индексации.

Если ваш сайт работает на WordPress, невероятно легко настроить и отправить карту сайта с помощью плагина (мне нравится Yoast).

Подробнее о создании карты сайта

После того, как ваша карта сайта создана и отправлена ​​в GSC, вы можете просмотреть ее в отчете о файлах Sitemap.

Дважды проверьте, включены ли все страницы, которые вы хотите проиндексировать. Трижды проверьте, НЕ включены ли все страницы, которые вы НЕ хотите индексировать.

5.Поделиться страницей в Twitter

Twitter — мощная сеть, которую Google регулярно сканирует (они также индексируют твиты).

Поделиться своим контентом в социальных сетях несложно, но это также простой способ подтолкнуть Google.

6. Делитесь страницей на сайтах с высокой посещаемостью

Сайты, такие как Reddit и Quora, являются популярными сайтами, которые позволяют размещать ссылки. Я регулярно продвигаю недавно опубликованные страницы на Quora — это помогает с индексацией, но также может привлечь кучу трафика.

Если вам лень (и вы в серой шляпе), вы можете купить «социальные сигналы» на таких сайтах, как Fiver.

7. Закрепите внешние ссылки на страницу

Как упоминалось ранее, Google сканирует со страницы на страницу с помощью HTML-ссылок.

Получение ссылок на ваш сайт с других сайтов — это не только важный фактор ранжирования, но и отличный способ повысить индексирование вашего сайта.

Самых простых способов получить ссылки:

  • Гостевой пост на актуальном авторитетном сайте
  • Найдите подходящих блоггеров или медиа-сайты и отправьте запрос на рекламу

Это сильно упрощено — вы можете проверить мою лучшую тактику построения ссылок для получения дополнительных идей.

8. «Пинг» ваш сайт

таких сайтов, как Ping-O-Matic, которые отправляют «пинги» поисковым системам, чтобы уведомить их об обновлении вашего блога.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *