Принципы работы поисковых систем
Что такое поисковая система (дальше ПС)? — вопрос не риторический и те, кому довелось на него отвечать, скажут: знать и объяснить — вещи разные
. Многие пользуются поисковыми системами, но не все знают, как они работают. Поэтому таких людей называют — пользователи. Но если есть сайт и желание, чтобы его находили в ПС — придётся разобраться.
Поисковая система (англ. search engine) — набор программ с веб-интерфейсом, выполняющий сбор и обработку данных в Интернете, а также поиск по имеющимся данным и вывод результатов поиска в соответствии с запросом пользователя.
Своё определение я разделил на две части:
- сбор/обработка данных
- поиск/вывод результатов
В такой последовательности работают поисковики. Чтобы что-то найти по запросу пользователя, им нужно это что-то собрать в свою базу данных.
Принципы работы поисковых систем
Всё ещё непонятно? Не спешите. Сейчас мы подробнее рассмотрим две основные функции ПС: индексацию сайтов (сбор и обработка данных) и поиск информации (поиск и вывод результатов).
Индексация сайта
Поиск в поисковиках идёт по копиям данных, которые хранятся в БД, также называемой индексом. Чтобы данные вашего сайта попали в индекс, необходимо сообщить поисковику URL главной страницы сайта. Сделать это можно на специальных веб-страницах, также называемых аддурилками (от англ add url):
- Аддурилка Google: google.ru/intl/ru/addurl.html.
- Аддурилка Яндекс: webmaster.yandex.ua/addurl.xml.
- Аддурилка Поиск@Mail.ru: go.mail.ru/addurl.
- Аддурилка Нигма.рф: тут.
Это далеко не полный список аддурилок поисковых систем, но для Рунета — более чем достаточно.
URL будет передан краулеру (поисковому роботу).
Краулер (от англ. crawler) — программа, предназначенная для сбора и обработки данных в сети Интернет, с целью занесения их в индекс поисковой системы.
По принципу действия краулер напоминает обычный браузер. Он заходит на веб-страницу, обрабатывает её содержание, сохраняет его в индекс поисковой системы и отправляется по ссылкам на следующие страницы сайта.
Вот почему необходимо было сообщить ПС URL лишь главной веб-страницы сайта. Остальные веб-страницы краулер найдёт самостоятельно, переходя по имеющимся на них ссылкам.
Процесс по обработке и сбору данных краулером, называется индексацией.
Примечание: для того, чтобы краулер смог проиндексировать ваш сайт, он должен иметь к нему доступ, но об этом мы поговорим в другой раз, как и о значении ссылок и правильном их использовании.
В дальнейшем, краулер будет посещать, находящиеся в индексе, веб-страницы сайта с целью проверки необходимости обновить данные в индексе, а также поиска новых веб-страниц сайта. Данная процедура будет производиться постоянно, но с определённой периодичностью, что позволит избежать повышенной нагрузки как на сайт, так и на поисковую систему.
Поиск информации
Для того чтобы найти информацию в Интернете, пользователь может использовать специальные системы поиска. В Рунете наиболее популярными из них являются: Google, Яндекс, Поиск@Mail.ru и Нигма.рф.
Зайдя на сайт поисковика, вы увидите форму состоящую из поля для ввода поискового запроса и кнопки Поиск в Google, Найти и т. п., предназначенной для начала выполнения поиска по указанному пользователем запросу.
Форма ввода поискового запроса на главной странице поисковой системы Google
Поисковый запрос (англ. search query) — набор ключевых слов или фраз, которые встречаются на искомых веб-страницах.
В тоже время, пользователь может использовать и расширенные возможности языка запросов ПС для уточнения требуемого результата. Так используя оператор site:
можно производить поиск указанных ключевых слов или фраз на определённом сайте. Например, по запросу: принципы работы поисковых систем site:www.wmascat.ru — будет произведён поиск указанного запроса только по моему блогу.
Напомню, что поисковики осуществляют поиск информация по копиям данных, хранимых в их индексах. Другими словами, для того чтобы веб-страница попала в результат поиска, может понадобиться определённое время.
Сама же страница результата поиска (англ. SERP) представляет собой набор ссылок на веб-страницы (картинки, видео и т. д.).
При этом ссылки упорядоченны в зависимости от соответствия и степени практического применения, найденных данных, для решения поставленной пользователем в запросе задачи, т. е. релевантности (лат. relevo — поднимать, облегчать).
Релевантность данных определяет поисковая система, в соответствии с используемыми алгоритмами.
Пример страницы результата поиска в поисковой системе Google
Как вы видите, чтобы пользователи смог найти сайт, добавить его в поисковую систему — недостаточно. Однако эти вопросы относятся уже к другой, весьма объёмной теме — поисковой оптимизации (SEO). Она выходит за рамки рассматриваемого нами вопроса, но я обязательно затрону её, и неоднократно.
Короткая ссылка: http://goo.gl/BB4N0A
1 комментарий:
Отправить комментарий