На семинарах компании "Ашманов и Партнеры" я читаю доклад о спамдексинге, рассматривая это явление не как случайные происки безответственных злодеев, а как одно из направлений естественной эволюции бизнеса по продвижению сайтов. Собственно, нет ни одного признанного спам-приема, который в свое время не был представлен аудитории как наиновейший и эффективный метод раскрутки.
Историю развития поисковых технологий можно представить как постоянную борьбу "меча" и "щита". Мечами вооружены веб-мастера, не желающие соблюдать лицензии поисковых машин, а разработчики этих машин постоянно совершенствуют щит, систему обороны поиска от действий плохих парней. Однако ту же самую историю несложно показать как постоянный поиск разработчиками парней хороших, действия которых можно и нужно использовать для улучшения работы поисковиков. Но если с плохими парнями все ясно - это спамеры, "чорные", "серые", "зеленые" и др. не отмытые добела оптимизаторы - то кто же такие хорошие парни?..
Они на виду. Самая многочисленная группа людей, чьи мнения были положены в основу современного поиска, конечно же, веб-мастера... в доссылочную эпоху. Помните, надеюсь:
Когда Гугл был лишь крохотным Гугленком в подгузниках, можно было с уверенностью сказать, что ссылка была точным признаком рекомендации...
Как только вы создадите поисковую машину, которая рассматривает ссылки как рекомендации, люди начнут пытаться воздействовать на ссылки. Как только они станут воздействовать на них, ссылки перестанут быть рекомендациями...
(см. К.Райдингс Растолкованный PageRank, пер. с англ. и комментарии А. Садовского, 04.01.2002)
Осознав роль ссылок в ранжировании, хорошие люди в строгом соответствии с приведенным выше прогнозом "начали пытаться воздействовать", тем самым переведя себя в разряд плохих. А разработчикам пришлось искать новую группу хороших. Нашли.
Краткое описание TrustRank
В работе [2] (Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with TrustRank. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB), p. 271-279, Toronto, Canada, Sept. 2004.) в качестве альтернативы PageRank предлагается другой метод вычисления ссылочного веса страниц Интернет. Этот метод, именуемый TrustRank, имеет то преимущество над PageRank, что при его использовании спамные страницы получают пониженный вес по сравнению с нормальными страницами.
TrustRank вычисляется точно так же, как PageRank. Отличие в следующем. Множество страниц разбивается на 2 класса - хорошие, т.е. не являющиеся поисковым спамом, и все остальные. На 1-й итерации хорошим страницам присваивается ненулевой начальный вес PR0=1/Ng, где Ng - число хороших страниц. Для остальных страниц начальный вес устанавливается равным 0. Далее TrustRank вычисляется точно так же, как PageRank...
Хорошие сайты, которым пользователи доверяют (отсюда и название TrustRank), не содержат поискового спама и редко ссылаются на спамные сайты. Поэтому при использовании TrustRank повышенный ссылочный вес получают страницы с таких хороших сайтов, а также те страницы, на которые они ссылаются...
Множество хороших сайтов предлагается отбирать из известных, вручную составляемых каталогов типа Open Directory Project...
(см. Н.Харин "Комбинированный метод ссылочного ранжирования в поисковой машине Интернет")
Как видим, для улучшения поиска из общей массы сайтов и ссылок разработчики поиска выделили группу по четкому экспертному признаку: "не содержат поискового спама и редко ссылаются на спамные сайты... отобранные из известных, вручную составляемых каталогов." В качестве экспертов в данном случае были признаны редакторы каталога, в обязанность которых входит умение отличать хорошие сайты от плохих.
Стоит отметить, что в хорошие каталоги автоматически, без проверки редактором не попадает ни один сайт. Т.е. в редакторах каталога мы видим некую группу людей, чьи "субъективные" действия (отбор сайтов, контроль, разнесение по тематическим рубрикам) во-многом определяют ранжирование в "объективной" поисковой машине. Принцип создания такой экспертной группы и алгоритм ее использования у каждого поисковика был собственный, но все поисковые системы пошли по этому пути:
- в ODP Google редакторы работали на общественных началах, наличие в каталоге придавало сайту повышенный вес при расчете веса для ранжирования;
- в Яндексе собственная штатная служба каталога, три наиболее цитируемых каталожных ссылки показывались в результатах поиска по запросу при условии совпадения слов запроса со словами описания (отменено), данные каталога используются для расчета веса при ранжировании, для формирования результатов при региональном поиске. По словам сотрудников Яндекса, каталог и был создан как "подпорка для поиска";
- в Рамблере ранжирование в каталоге-рейтинге Rambler's Top100 осуществляется по убыванию посещаемости проекта, модераторы штатные, в результаты поиска подмешивались до пяти ссылок на сайты из RT100 (в явном виде отменено). Добавление "примеси" было сделано по распоряжению Игоря Ашманова с целью быстрого улучшения качества поиска Рамблера;
- в Апорте данные о сайте, внесенном в собственный каталог (редакторы штатные) использовались для определения квоты индексации данного сайта. (см. С. Людкевич, Е. Есипов "Основные факторы, влияющие на релевантность п.4 Влияние собственных ресурсов поисковых машин").
Каталоги далеко не последний шаг в попытках создания экспертных групп для улучшения результатов поиска. Вот еще примеры.
В Яндексе, наряду с командой каталога, существует собственная служба асессоров. Асессоры - по слухам, их количество достигает 500 человек - это люди, прошедшие специальную подготовку с целью научиться отличать хорошие сайты от плохих и оценивать релевантность любой ссылки для запроса, по которому она найдена. Задача этой экспертной группы та же - улучшение результатов поиска, на основании оценок асессоров разработчики настраивают алгоритм ранжирования.
Летом 2008 года в результаты поиска Google стали добавляться ссылки на собственный сервис "Вопросы и Ответы" в случае полного или частичного совпадения поискового запроса и заголовка вопроса. Это не удивительно, содержимое ВиО-сервисов Google и Mail.Ru индексируется поисковыми машинами как и обычные форумы. Удивительна скорость добавления: ссылка в большом поиске появляется через несколько минут после появления вопроса в ВиО, в то самое время, когда появляются первые ответы людей на данный вопрос. При этом чем меньше время между вопросом в ВиО и соответствующим ему запросом в поиск, тем выше ранжируется ссылка на социальный сервис. Налицо попытка улучшить результат поиска, предложив пользователю не только ссылки на "стремящиеся к бесконечности ресурсы", но и живую аудиторию, для которой данный вопрос актуален именно в настоящий момент.
Компания Mail.Ru тоже постоянно экспериментирует в попытках использовать данные своего сервиса социального поиска Ответы@Mail.Ru в поисковой выдаче.
В конце ноября 2008 года Google реализовал для каждого зарегистрированного пользователя возможность самостоятельно формировать результаты поиска, добавлять нужные ссылки, а также повышать и понижать ссылки в существующей выдаче (технология WikiSearch). Читаем отрывок из интервью вице-президента и менеджера по продуктам Google Марио Коэйроса:
Людмила Кудрявцева: - В общем, вы превратили поиск в сервис закладок.
Марио Коэйрос: - Да, некоторые люди именно так и будут его использовать, может быть.
Людмила Кудрявцева: - Персонализация поисковых результатов при помощи WikiSearch помогает настраивать поисковую выдачу только для себя. Но влияет ли каким-то образом оценка пользователями сайтов на глобальное ранжирование, на общий, а не персональный поиск?
Марио Коэйрос: - Да, то, как пользователи оценивают сайт, учитывается при его ранжировании. Мы учитываем в ранжировании сайтов огромное количество факторов, по сложной формуле, и информация, полученная от пользователей, занимает среди них свое место. И клики пользователей по сайтам в выдаче тоже учитываются...
Количество экспертных групп, мнения и действия которых поисковые системы пытаются использовать для улучшения результатов, постоянно увеличивается: веб-мастера, редакторы каталогов, асессоры, пользователи вопрос-ответных сервисов, пользователи, зарегистрированные на портале и даже просто пользователи поиска. Предположительно, такой же экспертной группой являются авторы Википедии; с некоторых пор ссылки на вики-страницы стабильно занимают место в Тор10 по запросам, полностью или частично совпадающим с названиями словарных статей. С одной стороны, это можно попытаться объяснить исключительной "оптимизированностью" и популярностью проекта. С другой, сознательным искусственным завышением разработчиками ранга этого ресурса с целью улучшения качества поиска - наличие ссылки на Википедию обычно улучшает выдачу.
Очевидно, хороших парней много, и разработчики постоянно пытаются найти новых, с помощью которых можно еще более улучшить поиск. В этом и заключается проблема выбора экспертов в поисковых технологиях: как определить, мнения и действия каких людей можно учитывать для улучшения качества поиска, а каких нельзя. Зная цели и методы спамеров и специалистов по продвижению, несложно догадаться, что это весьма непростая проблема.
Представим, что мы, читатели рассылки, являемся новой экспертной группой, задача которой - сделать русский поиск лучше. Чтобы представить ситуацию, в которой придется работать, в следующем выпуске поговорим о двух парадигмах поисковых технологий.