Поисковая оптимизация
и продвижение сайтов в Интернете

Семинары и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи


Кластеризация as is


Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Анонс: Семинар по продвижению сайтов

Семинар "Продвижение сайтов в Интернете - теория и практика'" пройдет в Москве 10-11 марта 2010.
В программе семинара - практические доклады от экспертов.

ГлавнаяРассылка о поискеКластеризация as is

Выпуск 10. Кластеризация as is

Проблемы качества поиска
== выпуск 10 ==


  АШМАНОВ и ПАРТНЕРЫ

КЛАСТЕРИЗАЦИЯ AS IS

От редактора
Кластеризация as is
"Русская литература" или выдача по первоосновам
Из переписки: идеи, проблемы, критика...
Веселая ретроспектива - Борьба за Тор10
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

19 марта известный SEO-специалист Евгений Трофименко предложил от $1000 любому сотруднику Яндекса за должностное преступление - продажу служебной инструкции для асессоров поиска. Через 4 часа предложение было снято, видимо, кто-то продал. В качестве обоснования Евгений написал:

Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие - нет. Так что реального секрета здесь быть не может, по крайней мере, вреда в этом нет. А сайты будут в интернете гораздо качественнее.

Комментировать не берусь, факт эпатажный, но сама проблема интересна - должны ли нормативные документы поисковых систем, касающиеся оценки качества сайтов, быть недоступными для веб-мастеров?

Надеюсь, разработчики поиска смогут ответить на этот вопрос, но хочется узнать мнение и самих веб-мастеров. Хорошо ли вы понимаете отличия качественной веб-страницы (сайта) от некачественной или для этого было бы полезно почитать инструкцию для асессоров?

Напишите, пожалуйста, об этом по адресу subscribe@ashmanov.com. Лучшие замечания будут опубликованы.

КЛАСТЕРИЗАЦИЯ AS IS - Андрей Иванов

И хотелось бы писать проще, да куда уж... "Релевантность", "транзакционность", "ранжирование", "пертинентность", дошла вот очередь до "кластеризации". Обратимся к определениям.

Кластер - класс родственных элементов статистической совокупности.
(Cловарь по естественным наукам)

Кластеризация результатов поиска - группировка результатов поиска в поисковой системе по тому или иному признаку с целью сделать результат поиска более удобным. Например, в корпусной лингвистике при поиске по достаточно большому корпусу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Эту проблему призвана решить кластеризация.
(Википедия)

Вики-определение, как обычно, грешит некоей "незавершенностью", но понять несложно. Сотни и даже тысячи, и даже десятки и сотни тысяч результатов поиска можно разделить на "классы родственных элементов" и показывать в результатах поиска не ссылки на отдельные веб-страницы, а ссылки на группы веб-страниц. Внутри каждой группы страницы (сайты) всегда более-менее одинаковы, любые две страницы (сайта) из разных групп всегда различны. Решаемая кластеризацией проблема очевидна: если пользователю хочется просматривать только страницы определенного типа, не тратя времени на просмотр остальных, он имеет возможность сразу же выбрать нужную группу (кластер). Время поиска при этом сокращается в разы, качество в разы возрастает.

Но прежде чем решать с помощью кластеризации проблемы качества поиска, нужно решить проблему самой кластеризации - по какому "тому или иному" признаку группировать найденные по запросу результаты поиска и каким образом это делать.

Рисунок Валентина Дубинина

Необходимость в кластеризации возникает, когда в ответ на вопрос возможны разные типы данных, таковы большинство поисковых запросов.

Примеры кластеризованной выдачи известны всем, это специальные виды поиска. В новостях - кластер, состоящий из страниц ресурсов, размеченных модераторами как новостные. В словарях - кластер страниц со словарными статьями. В форумах и блогах, в товарах, в программных кодах, в каталоге... Во всех случаях признак, по которому производится отбор страниц для кластера, легко алгоритмизируется. Выбрали все тексты из атрибута alt тега img - получили кластер для организации поиска в картинках. И т.п. Но смысловую кластеризацию современные поисковые машины делать не умеют.

Смысловая кластеризация - это выделение из выборки страниц с одинаковой по смыслу информацией. Пример можно посмотреть в статье "Транзакционность и ранжирование" (данные в таблице): ссылки Тор10 четырех поисковых машин были распределены по сути предложенной информации. Оказалось, что сорок топовых ссылок можно разделить всего лишь на девять смысловых кластеров.

  • Смысл 22 ссылок из 40 - предложение о продаже пластиковых окон в Москве;
  • 5 ссылок - продажа пластиковых окон в Санкт-Петербурге;
  • 4 ссылки - продажа деревянных окон в Москве;
  • 3 ссылки - продажа пластиковых и деревянных окон в Москве;
  • 2 ссылки - ремонт окон в Москве;
  • 1 ссылка - продажа пластиковых окон в Перми;
  • 1 ссылка - продажа пластиковых окон в Киеве;
  • 1 ссылка - украинский информационный сайт, "созданный (как там написано) с целью наиболее полного освещения ситуации на рынке оконных конструкций";
  • 1 ссылка - поисковый спам.

Или отдельно по каждому поисковику:

  • Яндекс - 5 кластеров (предложения пластиковых и деревянных одновременно считаем пока разными кластерами, кластер из одной ссылки тоже учитываем),
  • Google - 6 кластеров,
  • Gogo.ru - 3 кластера,
  • Live.ru - 4 кластера (спам считать за кластер не будем).

Как видим, если бы поисковик мог на лету определять нужный пользователю кластер и предлагать ссылки только из него - это стало бы воплощенной мечтой об идеальном поиске. Об этом, к сожалению, сегодня даже мечтать не приходится.

Оффтоп:
Мечтать можно о более-менее точном автоматическом определении однотипных - по смыслу - ресурсов. Вполне реально выделять сайты типа "Предлагаем /товар, услугу/ в городе /таком-то/" - пластиковые окна в Москве, деревянные окна в Санкт-Петербурге, свежие пирожные в Арске, кукиш с маслом в Мухосранске и т.п. Подстановка в выдачу ссылки на такой кластер в результаты поиска по нечетким запросам вида /товар, услуга/, когда известен город, из которого сделан запрос, сразу может значительно улучшить результаты поиска. Но не хотят пока ни Яндекс, ни Google, ни Gogo показывать мне ссылку на кластер "Двери в Казани" в ответ на запрос двери. И вам, читатели, в Питере, Новосибирске, Екатеринбурге, Нижнем Новгороде, Самаре, Омске, Челябинске, Ростове-на-Дону, Уфе и др. городов - тоже свои родные кластеры пока не показывают.

Возможность определения ожиданий пользователя в стиле "запрос: окна, нужный кластер: окна в архитектуре" с последующей подстановкой ссылок этого кластера вместо дежурных "пластиковых окон в Москве" - это из области фантастики, экстрасенсорных технологий в поиске пока нет. С такой задачей не справится даже человек. Но есть задача, с которой немного подготовленный человек справляется легко, хотя алгоритмически повторить путь ее решения не может ни одна поисковая машина. Это задача создания смысловой структуры ответа, определение кластеров, которые должны быть в ответе на запрос. Иными словами, составление рубрикатора ответа.

Мы продолжим разговор о смысловой кластеризации в следующем выпуске. А сегодня представлю вашему вниманию статью эксперта Нейрона Тани Кочетковой. В своей работе она занимается именно этим: кластеризует ресурсы и составляет подборки кластеров в ответ на поисковые запросы. В статье разобран пример формирования ответа на запрос русская литература.

* * *

Обсудить статью можно на форуме, в теме "Кластеризация as is"

"РУССКАЯ ЛИТЕРАТУРА" ИЛИ ВЫДАЧА ПО ПЕРВООСНОВАМ - Татьяна Кочеткова

Поиск ответов по запросу "русская литературе" стал настоящим бальзамом на сердце, а кроме того лишний раз показал, что эксперт, прежде всего, должен формировать выдачу по тому предмету, в котором он разбирается. Так, мне (собственно, преподавателю русского языка и литературы) было просто приятно работать с материалом, хотя, с другой стороны, тему хотелось бы продолжать в дальнейшем.

Спорить об ответах, которые предложила я, можно долго: кому-то они покажутся слишком уж скупыми. Дело в том, что в основе отбора сайтов для этой выдачи лежала степень охвата материала, причем охвата разностороннего. Так в списке ответов на сам запрос "русская литература" оказались Институт литературы РАН и ссылка на хрестоматию по школьному предмету.

Главным дополнением к запросу и основной группой подсказок является массив "Электронные библиотеки". Здесь можно ознакомиться как с произведениями классиков, так и современных русских писателей. Кроме библиотек, пользователю рекомендуются также сетевые литературные журналы, в том числе и очень популярный "Самиздат".

Выдача получилась с преобладанием теоретического материала; практический аспект иллюстрирует только группа подсказок "Сочинения по русской литературе". Действительно достойных сайтов, имеющих функциональное значение для учащихся и не забитых рекламой и много раз скопированными материалами, оказалось предельно мало. Такие вещи, вообще, лучше искать в печатных сборниках - там хоть время от времени обновляют тексты.

Некоторые, казалось бы, очевидные смысловые группы я не выводила в подсказки, например, "биографии писателей". Эту информацию (если, действительно, нужна качественная информация) можно найти в хрестоматиях и отчасти в библиотеках, а вот сайты, которые всецело посвящены этой тематике, нередко оказываются пустышками с уже приевшимися глазу перепечатками и недоделками.

Основные проблемы выдачи - мертвые души и недостаточно авторитетные ресурсы. Так, например, www.litru.info, предлагающий обзор книг по русской литературе все записи на 91 (!) странице датирует 5 ноября 2007 года. Аннотации, естественно, скопированы с Озона без малейшей отметки об этом.

Недостаточная авторитетность - проблема ситуативная. То есть, если бы запрос не был фундаментальным, сайты, на которых представлена только часть информации, вполне подошли бы. Формируя выдачу, я отказалась от сайтов, где были представлены сканированные страницы хрестоматий или учебников, а также от ресурсов, которые дополняются крайне нерегулярно.

Выдача выглядит так - русская литература. Мне кажется, впрочем, что ее можно расширять бесконечно. А как думаете вы?

ИЗ ПЕРЕПИСКИ: ИДЕИ, ПРОБЛЕМЫ, КРИТИКА...

Николай Калашников: Спасибо за ссылку на neiron.ru. Реализованная там идея - это примерно то, как должен отвечать "умный человек" а поставленный вопрос: сначала уточнить, о чём конкретно спрашивается.

Но подумалось вот о чём: когда, например, Yandex выдаёт информацию по запросу "окна", он заинтересован в том, что бы ищущий щёлкнул не на ссылке в результатах выдачи, а по ссылке в блоке коммерческой рекламы - ведь за это Yandex получает деньги. Поэтому, по большому счёту, поисковик не заинтересован в качественной выдаче по "денежным" запросам. По "некоммерческим" запросам (типа "Омон Ра" или "династия Пятов") - пожалуйста, можно направить пользователя на сайт одиночки-энтузиаста, а по "денежным" - пусть нажимает туда, где это приносит деньги.

И можно долго спорить о том, каким должен быть поисковик, но никто работать себе в убыток не будет. Это напоминает работу штатного программиста: когда он всё сделал идеально - он получает зарплату и новую работу, а когда его программа постоянно нуждается в настройках - ему регулярно платят премии (за решение им же созданных проблем) и особо не загружают другими делами. :-)


Прим. ред.

Зачем же сознательно портить выдачу, если можно: а) поставить туда ссылку на хорошие сайты, б) взять за это деньги? Говорят, в Китае так и делают.

Яндекс, Google, Gogo и др. русские поисковики не используют эту коммерческую возможность, придерживаясь идеи, что выдача дожна формироваться строго алгоритмически, на основании объективных факторов. Поэтому деньги, которые компании готовы вкладывать в формирование выдачи, "крутятся" в SEO-бизнесе, по оценке нашей компании в 2008 году только на оплату ссылок было потрачено $50 млн. Сложно сказать, что заставляет разработчиков все еще верить, что ссылки могут являться "объективным фактором". :0)

ВЕСЕЛАЯ РЕТРОСПЕКТИВА ОТ ВАЛЕНТИНА ДУБИНИНА

Борьба за Тор10

Новая иллюстрация Валентина Дубинина - к статье Транзакционность и ранжирование

***"В случае нечеткого, информационного запроса - окна - конкуренция между "деревянными" и "пластиковыми" усиливается еще и конкуренцией между городами, а также иными возможными интерпретациями смысла запроса, которых обычно больше десятка. В итоге Тор10 приобретает совсем уж своеобразный вид..." Посмотреть >>

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры