-->

Принципы работы поисковых систем

Кот программиста

Что такое поисковая система (дальше ПС)? — вопрос не риторический и те, кому довелось на него отвечать, скажут: знать и объяснить — вещи разные. Многие пользуются поисковыми системами, но не все знают, как они работают. Поэтому таких людей называют — пользователи. Но если есть сайт и желание, чтобы его находили в ПС — придётся разобраться.

Принципы работы поисковых систем

Поисковая система (англ. search engine) — набор программ с веб-интерфейсом, выполняющий сбор и обработку данных в Интернете, а также поиск по имеющимся данным и вывод результатов поиска в соответствии с запросом пользователя.

Своё определение я разделил на две части:

  • сбор/обработка данных
  • поиск/вывод результатов

В такой последовательности работают поисковики. Чтобы что-то найти по запросу пользователя, им нужно это что-то собрать в свою базу данных.

Принципы работы поисковых систем
Принципы работы поисковых систем

Всё ещё непонятно? Не спешите. Сейчас мы подробнее рассмотрим две основные функции ПС: индексацию сайтов (сбор и обработка данных) и поиск информации (поиск и вывод результатов).

Индексация сайта

Поиск в поисковиках идёт по копиям данных, которые хранятся в БД, также называемой индексом. Чтобы данные вашего сайта попали в индекс, необходимо сообщить поисковику URL главной страницы сайта. Сделать это можно на специальных веб-страницах, также называемых аддурилками (от англ add url):

Это далеко не полный список аддурилок поисковых систем, но для Рунета — более чем достаточно.

URL будет передан краулеру (поисковому роботу).

Краулер (от англ. crawler) — программа, предназначенная для сбора и обработки данных в сети Интернет, с целью занесения их в индекс поисковой системы.

По принципу действия краулер напоминает обычный браузер. Он заходит на веб-страницу, обрабатывает её содержание, сохраняет его в индекс поисковой системы и отправляется по ссылкам на следующие страницы сайта.

Вот почему необходимо было сообщить ПС URL лишь главной веб-страницы сайта. Остальные веб-страницы краулер найдёт самостоятельно, переходя по имеющимся на них ссылкам.

Процесс по обработке и сбору данных краулером, называется индексацией.

Примечание: для того, чтобы краулер смог проиндексировать ваш сайт, он должен иметь к нему доступ, но об этом мы поговорим в другой раз, как и о значении ссылок и правильном их использовании.

В дальнейшем, краулер будет посещать, находящиеся в индексе, веб-страницы сайта с целью проверки необходимости обновить данные в индексе, а также поиска новых веб-страниц сайта. Данная процедура будет производиться постоянно, но с определённой периодичностью, что позволит избежать повышенной нагрузки как на сайт, так и на поисковую систему.

Поиск информации

Для того чтобы найти информацию в Интернете, пользователь может использовать специальные системы поиска. В Рунете наиболее популярными из них являются: Google, Яндекс, Поиск@Mail.ru и Нигма.рф.

Зайдя на сайт поисковика, вы увидите форму состоящую из поля для ввода поискового запроса и кнопки Поиск в Google, Найти и т. п., предназначенной для начала выполнения поиска по указанному пользователем запросу.

форма ввода поискового запроса на главной странице поисковой системы Google
Форма ввода поискового запроса на главной странице поисковой системы Google

Поисковый запрос (англ. search query) — набор ключевых слов или фраз, которые встречаются на искомых веб-страницах.

В тоже время, пользователь может использовать и расширенные возможности языка запросов ПС для уточнения требуемого результата. Так используя оператор site: можно производить поиск указанных ключевых слов или фраз на определённом сайте. Например, по запросу: принципы работы поисковых систем site:www.wmascat.ru — будет произведён поиск указанного запроса только по моему блогу.

Напомню, что поисковики осуществляют поиск информация по копиям данных, хранимых в их индексах. Другими словами, для того чтобы веб-страница попала в результат поиска, может понадобиться определённое время.

Сама же страница результата поиска (англ. SERP) представляет собой набор ссылок на веб-страницы (картинки, видео и т. д.).

При этом ссылки упорядоченны в зависимости от соответствия и степени практического применения, найденных данных, для решения поставленной пользователем в запросе задачи, т. е. релевантности (лат. relevo — поднимать, облегчать).

Релевантность данных определяет поисковая система, в соответствии с используемыми алгоритмами.

пример страницы результата поиска в поисковой системе Google
Пример страницы результата поиска в поисковой системе Google

Как вы видите, чтобы пользователи смог найти сайт, добавить его в поисковую систему — недостаточно. Однако эти вопросы относятся уже к другой, весьма объёмной теме — поисковой оптимизации (SEO). Она выходит за рамки рассматриваемого нами вопроса, но я обязательно затрону её, и неоднократно.

Короткая ссылка: http://goo.gl/BB4N0A

Twitter Facebook ВКонтакте Одноклассники Google+

1 комментарий:

Guzel
Искала вот именно такую разжеванную информацию, чтобы не было каши в голове. Спасибо.
Отправить комментарий