
|
Запрос на услуги по продвижению сайтов
Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.
* поля обязательные для заполнения ** заполните хотя бы одно из полей
|
|
Выпуск 10. Кластеризация as is
Проблемы качества поиска
== выпуск 10 ==
|
|
 |
 |
|
 |
|
 |
ОТ РЕДАКТОРА |
|
19 марта известный SEO-специалист Евгений Трофименко предложил от $1000 любому сотруднику Яндекса за должностное преступление - продажу служебной инструкции для асессоров поиска. Через 4 часа предложение было снято, видимо, кто-то продал. В качестве обоснования Евгений написал:
Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие - нет. Так что реального секрета здесь быть не может, по крайней мере, вреда в этом нет. А сайты будут в интернете гораздо качественнее.
Комментировать не берусь, факт эпатажный, но сама проблема интересна - должны ли нормативные документы поисковых систем, касающиеся оценки качества сайтов, быть недоступными для веб-мастеров?
Надеюсь, разработчики поиска смогут ответить на этот вопрос, но хочется узнать мнение и самих веб-мастеров. Хорошо ли вы понимаете отличия качественной веб-страницы (сайта) от некачественной или для этого было бы полезно почитать инструкцию для асессоров?
Напишите, пожалуйста, об этом по адресу subscribe@ashmanov.com. Лучшие замечания будут опубликованы.
|
|
 |
КЛАСТЕРИЗАЦИЯ AS IS - Андрей Иванов |
|
И хотелось бы писать проще, да куда уж... "Релевантность", "транзакционность", "ранжирование", "пертинентность", дошла вот очередь до "кластеризации". Обратимся к определениям.
Кластер - класс родственных элементов статистической совокупности. (Cловарь по естественным наукам)
Кластеризация результатов поиска - группировка результатов поиска в поисковой системе по тому или иному признаку с целью сделать результат поиска более удобным. Например, в корпусной лингвистике при поиске по достаточно большому корпусу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Эту проблему призвана решить кластеризация.
(Википедия)
Вики-определение, как обычно, грешит некоей "незавершенностью", но понять несложно. Сотни и даже тысячи, и даже десятки и сотни тысяч результатов поиска можно разделить на "классы родственных элементов" и показывать в результатах поиска не ссылки на отдельные веб-страницы, а ссылки на группы веб-страниц. Внутри каждой группы страницы (сайты) всегда более-менее одинаковы, любые две страницы (сайта) из разных групп всегда различны. Решаемая кластеризацией проблема очевидна: если пользователю хочется просматривать только страницы определенного типа, не тратя времени на просмотр остальных, он имеет возможность сразу же выбрать нужную группу (кластер). Время поиска при этом сокращается в разы, качество в разы возрастает.
Но прежде чем решать с помощью кластеризации проблемы качества поиска, нужно решить проблему самой кластеризации - по какому "тому или иному" признаку группировать найденные по запросу результаты поиска и каким образом это делать.
Рисунок Валентина Дубинина
Необходимость в кластеризации возникает, когда в ответ на вопрос возможны разные типы данных, таковы большинство поисковых запросов.
Примеры кластеризованной выдачи известны всем, это специальные виды поиска. В новостях - кластер, состоящий из страниц ресурсов, размеченных модераторами как новостные. В словарях - кластер страниц со словарными статьями. В форумах и блогах, в товарах, в программных кодах, в каталоге... Во всех случаях признак, по которому производится отбор страниц для кластера, легко алгоритмизируется. Выбрали все тексты из атрибута alt тега img - получили кластер для организации поиска в картинках. И т.п. Но смысловую кластеризацию современные поисковые машины делать не умеют.
Смысловая кластеризация - это выделение из выборки страниц с одинаковой по смыслу информацией. Пример можно посмотреть в статье "Транзакционность и ранжирование" (данные в таблице): ссылки Тор10 четырех поисковых машин были распределены по сути предложенной информации. Оказалось, что сорок топовых ссылок можно разделить всего лишь на девять смысловых кластеров.
- Смысл 22 ссылок из 40 - предложение о продаже пластиковых окон в Москве;
- 5 ссылок - продажа пластиковых окон в Санкт-Петербурге;
- 4 ссылки - продажа деревянных окон в Москве;
- 3 ссылки - продажа пластиковых и деревянных окон в Москве;
- 2 ссылки - ремонт окон в Москве;
- 1 ссылка - продажа пластиковых окон в Перми;
- 1 ссылка - продажа пластиковых окон в Киеве;
- 1 ссылка - украинский информационный сайт, "созданный (как там написано) с целью наиболее полного освещения ситуации на рынке оконных конструкций";
- 1 ссылка - поисковый спам.
Или отдельно по каждому поисковику:
- Яндекс - 5 кластеров (предложения пластиковых и деревянных одновременно считаем пока разными кластерами, кластер из одной ссылки тоже учитываем),
- Google - 6 кластеров,
- Gogo.ru - 3 кластера,
- Live.ru - 4 кластера (спам считать за кластер не будем).
Как видим, если бы поисковик мог на лету определять нужный пользователю кластер и предлагать ссылки только из него - это стало бы воплощенной мечтой об идеальном поиске. Об этом, к сожалению, сегодня даже мечтать не приходится.
Оффтоп:
Мечтать можно о более-менее точном автоматическом определении однотипных - по смыслу - ресурсов. Вполне реально выделять сайты типа "Предлагаем /товар, услугу/ в городе /таком-то/" - пластиковые окна в Москве, деревянные окна в Санкт-Петербурге, свежие пирожные в Арске, кукиш с маслом в Мухосранске и т.п. Подстановка в выдачу ссылки на такой кластер в результаты поиска по нечетким запросам вида /товар, услуга/, когда известен город, из которого сделан запрос, сразу может значительно улучшить результаты поиска. Но не хотят пока ни Яндекс, ни Google, ни Gogo показывать мне ссылку на кластер "Двери в Казани" в ответ на запрос двери. И вам, читатели, в Питере, Новосибирске, Екатеринбурге, Нижнем Новгороде, Самаре, Омске, Челябинске, Ростове-на-Дону, Уфе и др. городов - тоже свои родные кластеры пока не показывают.
Возможность определения ожиданий пользователя в стиле "запрос: окна, нужный кластер: окна в архитектуре" с последующей подстановкой ссылок этого кластера вместо дежурных "пластиковых окон в Москве" - это из области фантастики, экстрасенсорных технологий в поиске пока нет. С такой задачей не справится даже человек. Но есть задача, с которой немного подготовленный человек справляется легко, хотя алгоритмически повторить путь ее решения не может ни одна поисковая машина. Это задача создания смысловой структуры ответа, определение кластеров, которые должны быть в ответе на запрос. Иными словами, составление рубрикатора ответа.
Мы продолжим разговор о смысловой кластеризации в следующем выпуске. А сегодня представлю вашему вниманию статью эксперта Нейрона Тани Кочетковой. В своей работе она занимается именно этим: кластеризует ресурсы и составляет подборки кластеров в ответ на поисковые запросы. В статье разобран пример формирования ответа на запрос русская литература.
* * *
Обсудить статью можно на форуме, в теме "Кластеризация as is"
|
|
 |
"РУССКАЯ ЛИТЕРАТУРА" ИЛИ ВЫДАЧА ПО ПЕРВООСНОВАМ - Татьяна Кочеткова |
|
Поиск ответов по запросу "русская литературе" стал настоящим бальзамом на сердце, а кроме того лишний раз показал, что эксперт, прежде всего, должен формировать выдачу по тому предмету, в котором он разбирается. Так, мне (собственно, преподавателю русского языка и литературы) было просто приятно работать с материалом, хотя, с другой стороны, тему хотелось бы продолжать в дальнейшем.
Спорить об ответах, которые предложила я, можно долго: кому-то они покажутся слишком уж скупыми. Дело в том, что в основе отбора сайтов для этой выдачи лежала степень охвата материала, причем охвата разностороннего. Так в списке ответов на сам запрос "русская литература" оказались Институт литературы РАН и ссылка на хрестоматию по школьному предмету.
Главным дополнением к запросу и основной группой подсказок является массив "Электронные библиотеки". Здесь можно ознакомиться как с произведениями классиков, так и современных русских писателей. Кроме библиотек, пользователю рекомендуются также сетевые литературные журналы, в том числе и очень популярный "Самиздат".
Выдача получилась с преобладанием теоретического материала; практический аспект иллюстрирует только группа подсказок "Сочинения по русской литературе". Действительно достойных сайтов, имеющих функциональное значение для учащихся и не забитых рекламой и много раз скопированными материалами, оказалось предельно мало. Такие вещи, вообще, лучше искать в печатных сборниках - там хоть время от времени обновляют тексты.
Некоторые, казалось бы, очевидные смысловые группы я не выводила в подсказки, например, "биографии писателей". Эту информацию (если, действительно, нужна качественная информация) можно найти в хрестоматиях и отчасти в библиотеках, а вот сайты, которые всецело посвящены этой тематике, нередко оказываются пустышками с уже приевшимися глазу перепечатками и недоделками.
Основные проблемы выдачи - мертвые души и недостаточно авторитетные ресурсы. Так, например, www.litru.info, предлагающий обзор книг по русской литературе все записи на 91 (!) странице датирует 5 ноября 2007 года. Аннотации, естественно, скопированы с Озона без малейшей отметки об этом.
Недостаточная авторитетность - проблема ситуативная. То есть, если бы запрос не был фундаментальным, сайты, на которых представлена только часть информации, вполне подошли бы. Формируя выдачу, я отказалась от сайтов, где были представлены сканированные страницы хрестоматий или учебников, а также от ресурсов, которые дополняются крайне нерегулярно.
Выдача выглядит так - русская литература. Мне кажется, впрочем, что ее можно расширять бесконечно. А как думаете вы?
|
|
 |
ИЗ ПЕРЕПИСКИ: ИДЕИ, ПРОБЛЕМЫ, КРИТИКА... |
|
Николай Калашников: Спасибо за ссылку на neiron.ru. Реализованная там идея - это примерно то, как должен отвечать "умный человек" а поставленный вопрос: сначала уточнить, о чём конкретно спрашивается.
Но подумалось вот о чём: когда, например, Yandex выдаёт информацию по запросу "окна", он заинтересован в том, что бы ищущий щёлкнул не на ссылке в результатах выдачи, а по ссылке в блоке коммерческой рекламы - ведь за это Yandex получает деньги. Поэтому, по большому счёту, поисковик не заинтересован в качественной выдаче по "денежным" запросам. По "некоммерческим" запросам (типа "Омон Ра" или "династия Пятов") - пожалуйста, можно направить пользователя на сайт одиночки-энтузиаста, а по "денежным" - пусть нажимает туда, где это приносит деньги.
И можно долго спорить о том, каким должен быть поисковик, но никто работать себе в убыток не будет. Это напоминает работу штатного программиста: когда он всё сделал идеально - он получает зарплату и новую
работу, а когда его программа постоянно нуждается в настройках - ему регулярно платят премии (за решение им же созданных проблем) и особо не загружают другими делами. :-)
Прим. ред.
Зачем же сознательно портить выдачу, если можно: а) поставить туда ссылку на хорошие сайты, б) взять за это деньги? Говорят, в Китае так и делают.
Яндекс, Google, Gogo и др. русские поисковики не используют эту коммерческую возможность, придерживаясь идеи, что выдача дожна формироваться строго алгоритмически, на основании объективных факторов. Поэтому деньги, которые компании готовы вкладывать в формирование выдачи, "крутятся" в SEO-бизнесе, по оценке нашей компании в 2008 году только на оплату ссылок было потрачено $50 млн. Сложно сказать, что заставляет разработчиков все еще верить, что ссылки могут являться "объективным фактором". :0)
|
|
 |
ВЕСЕЛАЯ РЕТРОСПЕКТИВА ОТ ВАЛЕНТИНА ДУБИНИНА |
|
Борьба за Тор10
Новая иллюстрация Валентина Дубинина - к статье Транзакционность и ранжирование
"В случае нечеткого, информационного запроса - окна - конкуренция между "деревянными" и "пластиковыми" усиливается еще и конкуренцией между городами, а также иными возможными интерпретациями смысла запроса, которых обычно больше десятка. В итоге Тор10 приобретает совсем уж своеобразный вид..." Посмотреть >>
|
|
 |
ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ |
|
|
 |
АРХИВ РАССЫЛКИ
Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe
|
 |
|
|

|