Обзор и исследование поисковых систем

11.07.2010

От маркетинговой группе Newmann Bauer.

История зарождения поисковых систем

Первая интернет-страница, при создании которой была применена технология HTTP, появилась сравнительно недавно - в 1990 году. Ее создателем является британский ученный Тим Бернерс-Ли, который также является изобретателем URI, URL, HTTP, World Wide Web. Созданный им сайт info.cern.ch (в данный момент доступный в сети в качестве авторской страницы создателя) является прародителем не только современных информационных ресурсов, но и первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров.

В 1993 году была создана первая в мире поисковая система для Всемирной сети «Wandex». В ее основу был заложен World Wide Web Wanderer бот[1], разработанный Метью Греем из Массачусетского технологического института. Через несколько месяцев после рождения поисковой системы «Wandex» была создана конкурирующая система «Aliweb», которая в отличие от индекса «Wandex» работает до сих пор. В 1994 году была запущена первая полнотекстовая [2] («crawler-based», то есть индексирующая ресурсы при помощи робота) поисковая система «WebCrawler». Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей.

Первой поисковой системой, которая была доступна русскоязычным пользователям Интернета, стала поисковая машина «AltaVista», которая в 1996 году запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – «Rambler.ru» и «Aport.ru». Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети.

С запуском в 1997 году поисковой системы «Яндекс» отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги.

В западных странах переломный момент в развитии поисковых систем наступил с появлением в 1997 году поисковой системы Google. Компания Google разработала собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность[3] в результатах выдачи запросов. Сегодня компания Google обрабатывает более 40 миллиардов запросов в месяц, что соответствует 62,4 % всех поисковых запросов в мире.

[1] Бот (веб-паук, краулер)- производное от слова «робот». Аппаратно программный комплекс, применяемый в поисковых системах для добавления сайта в электронный каталог. Является составной частью «поисковой машины».

[2] Полнотекстовый поиск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса.

[3] Релевантность - в широком смысле - мера соответствия получаемого результата желаемому результату. Релевантность - в поисковых системах - мера соответствия результатов поиска задаче поставленной в запросе.

Поисковая машина

Поисковая машина - это аппаратно-программный комплекс, осуществляющий быстрый поиск необходимой информации внутри сервера или интернет-ресурса. Основа поисковой машины у всех поисковых систем примерна одинаковая. Как правило, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса и ранжирование результатов по релевантности поискового запроса. Но многие крупные поисковые системы держат в секрете содержание своей поисковой машины. Ключевым отличием является база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Все это в совокупности и определяет критерий качества работы поисковых машин.

Классифицируется поисковая машина по области поиска информации:

1. Локальный поиск. Предназначен для осуществления поиска информации по какой-либо части всемирной сети, например, по одному или нескольким сайтам, либо по локальной сети. Примером служит поисковый скрипт на сайте или внутренние серверы крупных компаний.

2. Глобальный поиск. Предназначен для поиска информации по сети Интернет, либо по региональной части, группе сайтов и т.д. Глобальный поиск используют крупные поисковые системы Яндекс, Google, Yahoo и т.д.

Поисковые машины осуществляют различный поиск информации по сети Интернет. Например, картинки, музыка, географическое положение, личная информация и т.д. Файлы, с которыми работает поисковая машина, могут быть разных форматов (например .html,.htm,.txt,.doc,.rtf, …), графического (.gif, .png, .svg, …) или мультимедийного (видео, звука и другой информации). Но наиболее распространенным является поиск по текстовым документам (web-страницы, документы в формате doc, rtf, txt и др.). Поиск по изображениям, видео, звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, Яндекс.Картинки искали не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. А каталог поиска картинок в компании Google составляется вручную, что увеличивает релевантность запроса, но тормозит обновление баз изображений.

Рейтинг поисковых систем

Характерной ошибкой многих аналитических компаний является попытка сравнения поисковых систем, работающих с западными рынками и рынком Рунета. В широкое применение компьютеры, не говоря уже про Интернет, вошли только в начале 90-х годов прошлого века. И развитие интернет-технологий в постсоветском пространстве происходило благодаря энтузиазму отдельных людей. Крупные IT-компании, работающие сейчас на рынке Рунета, появились в результате консолидации отдельных групп инициативных людей. Примером служит компании «ABBYY», «Студия Артемия Лебедева», «Лаборатория Касперского» и др. На Западе многие компании, работающие в сфере высоких технологий, образовываются в результате грандов и кредитов со стороны государственных и частных структур, а также венчурных фондов. В России только сейчас начинают внедряться технологии поддержки инноваций в сфере высоких технологий.

В зоне .com использование поисковых систем распределилось следующим образом (данные полученные от компании Net Applications):

Обзор и исследование поисковых систем

Российский рынок поисковых систем в подавляющем большинстве представлен одной отечественной (поисковая система Яндекс, доля рынка – 46,3 %) и одной западной (поисковая система Google, доля рынка – 34,4 %) компаниями.

Обзор и исследование поисковых систем

Популярность сразу двух поисковых систем на рынке Рунета обусловлена непохожестью результатов выдачи искомого. Компании Яндекс и Google используют собственные технологии ранжирования и релевантности поисковых запросов, соответственно выдача результатов одной поисковой системы зачастую отличается от другой. Интересен и другой факт, компании Mail.ru и Rambler, растеряв свои позиции в поисковом рейтинге, остаются крупными IT-холдингами благодаря сервисам и сайтам, которые находятся на их платформе. По популярности сервисов и сайтов портал Mail.ru опережает многих отечественных, а также западных конкурентов (доля на рынке 59 %), а в сфере веб-почты компания Mail.ru занимает лидирующие позиции на пространстве СНГ. С отказом компании Mail.ru от технологии поиска Google и Яндекс, и запуском собственного поискового алгоритма go.mail.ru, компания начала наверстывать упущенное в поисковом сегменте рынка и сегодня она занимает третью строчку в поисковом рейтинге.

Статистика переходов

Основным критерием оценки качественной работы поисковых систем служит «статистика переходов» со страницы каталога выдачи запроса. Статистика переходов зависит от времени года, важных событий в мире, праздников, состояния экономики и других немаловажных факторов.

Статистику переходов можно условно разделить на несколько категорий:

Популярные категории. К популярным категориям относятся ежедневные запросы по основным тематикам каталога (фото, видео, картинки и т.п.). Популярными категориями пользуются в основном люди, проводящие в сети Интернет 3-5 часов в сутки, их мнение влияет на составление каталога популярных категорий. Социальный портрет пользователей: пользователи в возрасте 20-30 лет, работающие в частных или госструктурах, социальный статус – служащие, достаток средний или выше среднего, имеющие свободный доступ к сети Интернет. Время посещения сети Интернет – утренние часы, обеденное время, частично вечернее.

Обзор и исследование поисковых систем

Всплеск по интересам. Всплеск запросов по интересам обычно связан со знаменательными событиями в мире или в Рунете, которые так или иначе вызывают интерес у пользователей сети. Существует сезонные всплески интересов, например, Новый Год, Евровидение и т.п. Ниже приведена таблица всплесков по интересам за 2009 год.

Обзор и исследование поисковых систем

По данным компании Liveinternet, на рынке Рунета по количеству переходов лидирует поисковая система Яндекс. Статистика переходов влияет в первую очередь на рейтинг поисковой системы на рынке Рунета. Ниже представлена диаграмма переходов за 2009-2010 год (по данным Liveinternet).

Обзор и исследование поисковых систем

Индекс цитирования

Индекс цитирования (ИЦ) — основной показатель ранжирования сайтов в каталоге выдачи запроса, вычисляемый на основе числа ссылок на данный сайт с других ресурсов сети Интернет. В простейшей разновидности учитывает только количество ссылок на ресурс.

Тематический индекс цитирования (тИЦ) – технология поиска, используемая в поисковой машине Яндекса. ТИЦ определяет степень авторитетности интернет-ресурса с учетом качественной характеристики ссылок на него. Качественные характеристики ссылок в компании Яндекс называют «весом» индекса цитирования. Рассчитывается при помощи алгоритма (сам алгоритм держится в секрете, чтобы уменьшить появления поискового спама). Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их «веса».

Первоначально, до того как появились оптимизаторы сайтов, индекс цитирования реально отражал популярность соответствующего ресурса в Интернете. Первой крупной поисковой системой, использовавшей в своем алгоритме индекс цитирования, стала Google (алгоритм PageRank).

Поисковый спам

Поисковый спам – сайты и страницы в сети Интернет, созданные для манипуляции результатами поиска, увеличению тИЦ. Поисковый спам улучшает позиции интернет-ресурса в каталоге выдачи запроса, но негативно влияет на его популярность. Известны случаи, когда интернет-ресурсы с оригинальным контентом теряли популярность и попадали в списки поискового спама, теряя при этом посетителей. Поисковый спам подразделяется на несколько типов:

• Слова в тегах meta keywords, description, например sex, халява которые не имеют отношение к контенту сайта, но пользующиеся популярностью в поисковых запросах. Для борьбы с этим видом спама поисковые машины анализируют не только теги, но и сам контент.

• Большое количество ключевых слов, искусственное повышение частоты ключевого слова или выражения в тексте, использование элементов разметки HTML (h1-3, strong, b, em, i) для искусственного повышения веса ключевого слова.

• «Невидимый текст» - текст, невидимый посетителями сайта, но индексируемый поисковыми машинами. Применяется цвет текста, соответствующий цвету фона, текст размером в 1 пиксель, блоки текста со стилем «display:none».

Ссылочный спам — ссылки, «накручивающие» link popularity и PageRank сайта. Так как поисковые машины, отвечая на запрос, руководствуются количеством ссылок ведущих на сайт с других ресурсов, можно предложить следующие идеи по увеличению числа этих ссылок:

1. Создавать небольшие сайты с использованием бесплатных хостинг-провейдеров, зарегистрировав их в большом количестве тематических каталогов и с них ссылаться на основной сайт.
2. Принять участие в обмене ссылками.

3. Приобретать ссылки за деньги.
4. Ссылочный спам с гостевых книг, блогов, вики и пр.

Поисковые системы, борясь с появлением поискового спама, создают фильтры, куда добавляютcя сайты, ссылки с которых не учитываются при ранжировании.

Doorway (дорвей, входная дверь)— промежуточные страницы, созданные для накрутки веса страницы при ссылочном ранжировании. Часто страницы-дорвеи перенаправляют посетителя на другую страницу или другой интернет-ресурс. Поисковые машины в ответ удаляют из своей базы данных сайты, в которых есть автоматическое перенаправление.

Маскировка — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

Основная проблема, порождаемая поисковым спамом, это появление огромного количества мусорного контента. Все это отрицательно влияет на релевантность результатов выдачи, снижает и искажает эффективность работы поисковых машин. В конечном итоге, Интернет перестает быть источником для получения объективной информации. Также и спам заставил поисковые алгоритмы критически относиться к «добропорядочным» сайтам, на которые не ссылаются другие ресурсы, что уменьшило в итоге релевантность сайтов по менее популярным запросам.


13382
Re-port.ru
Re-port.ru
+2450.9
ДОБАВИТЬ комментарий
Вы не авторизованы. При отправке сообщения, в качестве автора будет указан "Гость". Вход | Регистрация
Защита от спама * :