Как заведено: впечатляющие цифры для интриги

Google — доминирующая поисковая система в мире, которая в 2016 году заработала $86,49 млрд, в его индексе находится около 130 трлн страниц, на его серверах — более 100 млн Гб данных. И такие количественные показатели — производные от высокого качества выдачи. Ведь каждую секунду такие поисковые системы как Google, Bing, Yandex и другие сражаются за лидерство.

Но давайте не забегать наперед!

Работа поисковых систем тесно повязана с информационным поиском. Вместо того, чтобы обсуждать отличия между поисковиками, мы рассмотрим основные принципы их работы (которые являются общими для всех поисковых систем, работающих на основе индекса). При этом иногда будем использовать ссылки на Google, как на лидера.

Кстати, как замечательно, что у нас есть видео сюжет по теме!
Ёмкий, глубокий сюжет на [50 минут].


Основные процессы Google

Когда попадаешь на главную страницу Google, все выглядит просто как пирог:

На самом деле лучшие ученые мира непрерывно тестируют и внедряют новые технологии и изобретения для того, дать пользователям такой уровень комфорта.
Процесс работы поисковой системы можно условно разделить на этапы:

  • Кроулинг
  • Индексация
  • Ссылочное ранжирование
  • Поисковая персонализация

Я не зря использовал маркированный список.
Дело в том, что:

  • с одной стороны все эти процессы могут работать только получив данные от предыдущего;
  • с другой стороны все они выполняются одновременно каждую секунду и так круглый год;
  • я люблю нумерованные списки:).

Также стоит добавить, что это лишь основные процессы — то есть наиболее значимые для конечного результата и поисковой оптимизации.
Ну что? Готовы к погружению в детали? Поехали!

Сканирование (Кроулинг)

Кроулинг — это процесс обнаружения новых веб-страниц и обновления сведений о ранее проиндексированных. Сканирование выполняется поисковыми роботами(кроулерами/ботами).
Поисковый робот — программа, задача которой — обнаруживать и скачивать веб-страницы, после чего — сжимать и передавать эти данные в репозиторий Google. Например, еще на самом начале работы Google у них уже имелось 3 таких бота, каждый из которых работал в 300 потоков.

Как работает Google бот

Попадая на веб-страницу поисковый робот скачивает ее содержимое, после чего переходит по обнаруженным на ней ссылкам. Сканирование базируется на двух принципах:

  1. Алгоритм обнаружения в ширину;
  2. Общеисключающий принцип.

В алгоритме обнаружения в ширину проявляется здравый смысл сканирования. Сначала сканируются страницы высшего уровня, и только после этого бот переходит к страницам нижних уровней и так далее. Предполагается, что чем «ближе» страница к главной, тем она важнее — поэтому и скачать ее нужно в первую очередь.
Общеисключающий принцип — это правило «разрешено все, что не запрещено». Поисковые роботы сканируют все страницы, которые не запрещены вебмастером. Нам, как специалистам по поисковому продвижению, стоит сделать акцент на методах контроля индексируемости сайта.

Как запретить индексацию и сканирование страницы?

Существует основных 4 способа, как запретить доступ поискового робота к сайту:

  1. Файл robots.txt
  2. Мета-тег ‘robots’
  3. Атрибут rel=’nofollow’
  4. Авторизация

1. Файл robots.txt — файл, размещаемый в корневом каталоге сайта, который содержит директивы для поисковых роботов. Определение и пример находятся в глоссарии SEOHARD. Файл robots.txt позволяет запретить одновременно и сканирование и индексацию как отдельной страницы, так и каталога (либо даже всего файла). При этом страница все-равно может отображаться в индексе поисковой системы, если на нее ведут ссылки с других сайтов.

2 .Мета-тег meta name=’robots’ работает на уровне страницы и позволяет отдельно указывать директивы сканирования и индексации. Запрет индексации с помощью этого тега исключает страницу с поисковой выдачи, а разрешив только сканировать страницу можно повысить шансы обнаружения других страниц.

3. Поисковый робот Google не переходит по ссылкам с атрибутом rel=’nofollow’. Соответственно если на страницу ведут только ссылки с этим атрибутом, она не будет обнаружена.

4.Очевидно, что авторизация является барьером для поискового бота. Программа не может получить доступ к данным, защищенным паролем.

С какими проблемами сталкиваются кроулеры?

Работу поисковых ботов существенно усложняет противоречие между стремлением обладать максимально свежими результатами и контролем нагруженности сайтов.

  • С одной стороны нужно ограничивать частоту сканирования сайтов. В сравнении со средним сайтом, как например SEOHARD, поисковые роботы обладают сумасшедшей мощностью. Если не ограничивать частоту сканирования сайта, его можно легко вывести из строя.
  • С другой стороны нельзя сканировать сайт слишком редко.Свежесть предоставляемой информации — одна из самых конкурентных характеристик поисковых систем. А поисковый робот не знает, изменилось ли содержимое страницы, и если посмотреть под таким углом, то поисковому роботу выгодно посещать страницы как можно чаще.

К тому же, сайты легко перегрузить, если на него будут заходить разные роботы от одной поисковой системы. Поэтому поисковые роботы вынуждены работать только в согласованном режиме.

Индексация

Индексация — процесс построения обратного индекса обнаруженных страниц.
Дело в том, что прямой индекс — это просто список терминов, извлеченных с документов. Обратный индекс — это ‘таблица соответствия’ между терминами и страницами, на которых они предоставлены. При чём очень желательно, чтоб документы были рассортированы по убыванию релевантности.
Очень многим информационный поиск, а значит и поисковые системы, обязаны Жерарду Сальтону (англ.).

Жерард Сальтон — профессор информатики Корнельского Университета, его называют отцом информационного поиска. Жерард вел научную группу вместе с которой потратили многие годы на разработку системы SMART — одной из самых цитируемых, авторитетных и основополагающих систем ИП.

SMART — Salton’s Magical Retriever of Text либо System for the Manipulation and Retrieval of Text. Это система построения базового индекса неоднородных документов. SMART получала множество усовершенствований, но даже сегодня лежит в основе всех поисковых систем на основе индексации. Понимание принципов работы SMART позволяет SEO специалисту осознанно принимать решения по оптимизации сайта, отталкиваясь от основ информационного поиска, а не «делать по Фэншуй», «как в подьезде написано» и так дальше. Настоятельно рекомендую просмотреть раздел видео, где я рассказываю об индексации и об основных 6 этапах работы SMART, а после этого и все видео, поскольку информация действительно уникальная.
Также стоит добавить, что SMART — это основная концепция, которая неоднократно улучшалась при помощи обработки естественного языка, введения расширенной модели векторного пространства (англ.) и булевых операторов.

Что такое ссылочное ранжирование?

Ссылочное ранжирование — это позиционирование сайтов в поисковой выдаче отталкиваясь от показателей качества, количества и др. показателей их обратных ссылок.
Любая поисковая система финансово заинтересована в том, чтобы предоставлять результаты поиска наивысшего качества. Поэтому поисковым системам выгодно учитывать не один критерий (содержание документов), а совокупность критериев релевантности. Одним из самых важных таких критериев является наличие обратных ссылок.

Есть 2 самых популярных алгоритма ранжирования:

  1. HITS — Hyperlink-Induced Topic Search — алгоритм, разработанный ученым информатики из Корнельского Университета Джоном Кляйнбергом (англ.). Алгоритм выделяет среди группы однородных документов:
    • авторитеты — самые цитируемые документы
    • и ресурсы — самые качественные документами со списками ссылок.

    Главный недостаток алгоритма — парадигма «ссылка = голос», то есть абсолютно каждая ссылка учитывается как «голос» за документ, а это существенно расходится с действительностю (есть атвоматические, навигационные, спамные ссылки).

  2. PR — Page Rank — алгоритм, который используется уже 18 лет компанией Google. Это система определения наиболее авторитетных документов, разработанная основателями Google Ларри Пейджом и Сергеем Брином . В сравнении с HITS, PR имеет важные преимущества:
    • Работает с неоднородным набором документов, что больше приближено к реальным условиям Интернет без каких-либо официальных стандартов предоставления информации.
    • Передаваемый вес пропорционален весу ссылающейся страницы, то есть учитывается не только количество, но и качество ссылок.

Рекомендую просмотреть раздел сюжета о работе Google, где я рассказываю о HITS и PR, показываю смешные примеры и рассказываю, как студенты называют Джона Кляйнберга.

Персонализация

Поисковая персонализация — совокупность методик, основанных на анализе поискового поведения и дополнительной информации о пользователях, которые позволяют:

  • Предоставить пользователям более подходящие результаты;
  • Позиционировать сайты учитывая то, как взаимодействуют с ними пользователи.
  • Учитывать язык, местоположение пользователей

Основыне виды поисковой персонализации

  • Поведенческая
  • Локальная
  • Социальная
  • Другие

1. Поведенческая персонализация. Для того, чтоб анализировать поведение пользователей, нужно собрать как можно больше информации, поэтому собирается:

  • Явная обратная связь — голоса за страницу, добавление в закладки и так далее. Ранее Google даже предоставлял возможность пользователям голосовать за страницы в SERP.
  • Неявная обратная связь — история поиска, взаимодействие с SERP, поведение на странице.

Вся эта информация позволяет более точно предугадывать намерения пользователя и повышать качество выдачи.
2. Локальная персонализация — позволяет предоставлять пользователю информацию, учитывая особенности конкретного местонахождения. Вводя один и тот же запрос люди могут иметь различные намерения в зависимости от региона/страны. Также Google позволяет находить кафе, рестораны, магазины учитывая их близость к пользователю. Очевидно, что это делает результаты поиска более ценными.
3. Социальная персонализация. Страницы, которыми поделились друзья пользователя в социальных сетях, могут отображаться выше в поисковой выдаче.
4. Другие способы поисковой персонализации включают автодополнение, исправление опечаток, голосовой поиск, поиск по изображениям.
Для того чтоб лучше разобраться в каждом виде персонализации, получить примеры и узнать с какими вызовами она сталкивается, советую просмотреть эту часть сюжета о работе Google.

Интересные и полезные ссылки:

1. Милая инфограма о работе Google от Google.
2. Статистика Google от Statista.
3. RobotsTXT.org — ресурс, посвященный одноименному стандарту исключения.