Поисковая оптимизация
и продвижение сайтов в Интернете

Семинары и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей


Коэффициент дублирования


Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи

Кластеризация as is

Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Анонс: Семинар по продвижению сайтов

Семинар "Продвижение сайтов в Интернете - теория и практика'" пройдет в Москве 10-11 марта 2010.
В программе семинара - практические доклады от экспертов.

ГлавнаяРассылка о поискеКоэффициент дублирования

Выпуск 16. Коэффициент дублирования

Проблемы качества поиска
== выпуск 16 ==


  АШМАНОВ и ПАРТНЕРЫ

КОЭФФИЦИЕНТ ДУБЛИРОВАНИЯ
89,3% Рунета - это мусор

От редактора
Коэффициент дублирования
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

Яндекс официально объявил о старте новой поисковой платформы "Арзамас" в боевой версии.

Интернет, 12 октября 2009 года. Яндекс запустил поисковую платформу 'Арзамас' - поиск с учетом региона - в 19 городах России. Регион пользователя учитывается при ответах на запросы, которые касаются местных реалий... (читать полностью)

Меня как казанца поиск местных реалий особенно касается, тестируем.

  • Запрос "кинотеатры" - 1 и 3 ссылки на сайты сетей "Каро" и "Киномакс", но с казанскими адресами в сниппете. Очень хорошо, приятно видеть!
  • Запрос "прокат автомобилей" - все ссылки московские.
  • Запрос "бронирование авиабилетов" - все ссылки московские.
  • Запрос "зоологический музей" - сайт зоомузея Казанского госуниверситета на 2 позиции, при отключенном региональном факторе на 3-й.
  • Запрос "агентство недвижимости" - все ссылки московские.
  • Запрос "доставка воды" - все ссылки московские.
  • Запрос "авто суши" - 1,3 и 4 ссылки казанские. При отключенном региональном факторе те же сайты, но уже на 1,2 и 4 позиции. Странно...
  • Запрос "пицца на дом" - все ссылки московские.

Сложно делать выводы, имея такие данные. Запросы, вроде, очевидные, ожидания результатов тоже, но почему-то не сработало. Хотя, по словам менеджера отдела качества поиска Яндекса Ивана Наймушина:

Наши метрики и результаты тестирования подтверждают, что учет регионов повышает точность ответов на вопросы, поэтому мы будем развивать Арзамас и дальше.

Пожелаем успехов Яндексу в новом деле! Идея учета регионального фактора - отличная идея. Но очень хочется уже сейчас увидеть хотя бы один конкретный пример, где региональный фактор по-настоящему улучшил результаты поиска. Если вы, уважаемый читатель, живете в одном из 19 регионов (кроме Москвы), где учитывается новый фактор, и знаете такой запрос - поделитесь, пожалуйста: пришлите запрос, город, скриншот или комментарий, что стало лучше.

КОЭФФИЦИЕНТ ДУБЛИРОВАНИЯ - Андрей Иванов

Кому лень читать много букв и смотреть на списки, может сразу перейти к выводам.

* * *

В начале сентября в рассылке была опубликована статья "Экономика сетевого плагиата (поисковые системы и воровство контента)". Речь в ней шла о том, что поисковые системы, к сожалению, являются неотъемлемой частью схемы бизнеса на плагиате, поставляя копипастерам как посетителей из результатов поиска, так и средства монетизации этого трафика. Чем менее совершенны в поисковике алгоритмы поиска источников оригинального контента, тем выгоднее становится незаконная републикация. Сравнить умение поисковых машин правильно ранжировать первоисточники можно с помощью соответствующего анализатора компании "Ашманов и Партнеры".

В той статье я не касался вопроса о масштабах феномена "заимствования". Но задумал небольшой эксперимент, о результатах которого хочу рассказать сегодня. В качестве источника оригинальных текстов были выбраны девять статей из "Газеты.ру".

Вот документ "Правила использования информации", который определяет "условия ... использования информации, размещенной на сайте www.gazeta.ru". Для краткости опишу в свободной форме, каким образом можно законно использовать информацию с "Газеты.ру" без письменного договора с этой организацией или даже без уведомления о факте использования.

  • Цитируемые тексты не должны превышать 30% объема от исходных. Для Интернета приведено довольно странное правило - не более 100 символов без учета пробелов, в такой объем сложно уместить даже два предложения.
  • При использовании в электронном виде (на сайте) обязательно нужно ссылаться на "Газету.ру", причем не текстом, а гиперссылкой.
  • Гиперссылок должно быть две: а) на главную страницу "Газеты.ру" и б) на страницу, откуда взят используемый текст.
  • При перепечатке текста ссылки на "Газету.ру" должны располагаться не в конце, а в начале текста.

Конечно, до 100 символов с двумя ссылками над ними будут смотреться довольно странно, но dura lex; кому не нравится, может написать в "Газету.ру" и договориться о более мягких условиях.

Сегодня, всего месяц спустя с помощью Яндекса можно найти 75 полных копий упомянутых статей. Полных, а не не 30% от объема исходного текста. Ни в одном случае условие двух гиперссылок на источник, размещенных до начала используемого текста не выполнено. Подробнее, в копиях:

  • авторы указаны 9 раз;
  • "Газета.ру" упоминается 31 раз;
  • найдено прямых ссылок на источник - 24;
  • непрямых ("битых") - 2.

Дурное форматирование (вся статья одним абзацем), исчезновение иллюстраций, комментариев, ссылки на неверный источник, подтасовку текста (например, в статье текст "Газета.ру следит за развитием событий" изменен на "trah-tibidoh.com следит за развитием событий") и количество рекламы - не считал. Хватает, чтобы понять.

В списке исходных статей, см. выше, полужирным шрифтом в скобках указана тема раздела, в котором опубликован материал, и количество найденных копий. Очевидно, что количество копий зависит от тематики вообще и от содержания, но о статистике говорить пока рано. Скорее всего, в темах, где больше рекламодателей (авто, финансы), копий тоже больше, по вполне прагматичным соображениям - зарабатывать легче.

Копии распределены по 57 доменам. Вот список, цифра означает количество заимствованных в течение месяца статей из выбранной нашей девятки. Ознакомьтесь выборочно с парой-тройкой сайтов. Как думаете, имеются ли у них письменные договора с "Газетой.ру", разрешающие републикацию ее материалов?..

  1. i-news.kz 5
  2. news.uno.kz 3
  3. subscribe.ru 3
  4. aviafond.ru 2
  5. carsgid.ru 2
  6. federalnews.ru 2
  7. gaz-v-pol.ru 2
  8. kuplyu-avtomobil.ru 2
  9. news.witan.ru 2
  10. news-k.ru 2
  11. redauto.ru 2
  12. remontavto.info 2
  13. aautomagazin.av.by 1
  14. amina.com 1
  15. archives.maillist.ru 1
  16. asset-trust.ru 1
  17. auto.zhdany.by 1
  18. autodaily.com.ua 1
  19. baltpulse.com 1
  20. blogs.trust.ua 1
  21. chechenpress.com 1
  22. creeper-ssp.livejournal.com 1
  23. deyerler.avantajprim.com 1
  24. deyerler.org 1
  25. driverblogs.ru 1
  26. dynamo.ru 1
  27. economica-digest.ru 1
  28. estmnenie.tomsk.ru 1
  29. ex-turism.ru 1
  30. fanat1k.ru 1
  31. fiksing.ru 1
  32. hcmvd.ru 1
  33. i-r-p.ru 1
  34. mashins.ru 1
  35. mashlist.ru 1
  36. mebelnik.org.ua 1
  37. megacities.ru 1
  38. metallurg.ru 1
  39. news.gde.ru 1
  40. open.by 1
  41. osradio.ru 1
  42. p206.ru 1
  43. poisia.ru 1
  44. rbsys.ru 1
  45. real-realty.ru 1
  46. selard.com 1
  47. sibinfo.net 1
  48. spbdrive.ru 1
  49. sport27.ru 1
  50. top-pereezd.com 1
  51. torg-sig.ru 1
  52. touareg-club.net 1
  53. trunov.com 1
  54. vestnik.mgik.mos.ru 1
  55. vgoroden.ru 1
  56. vybor-naroda.org 1
  57. zvuk.ankv.net 1

Выводы

Как видим, мониторинг в поисковых индексах даже небольшой выборки оригинальных материалов позволяет быстро определить ресурсы, систематически занимающиеся копипастингом. Если нужна помощь в этом вопросе - обращайтесь. Для продвижения сайта много ссылок с одного ресурса смысла не имеют, т.е. с такими ресурсами необходимо либо договариваться о контракте, либо "воевать".

Выявление единичных фактов копирования без установки гиперссылок может быть полезным для продвижения. Владельцы таких сайтов, скорее всего, нужные ссылки поставят по первому требованию.

Объем заимствований составляет 75/9 = 8,3, от восьми копий на одну оригинальную статью, т.е. Рунет как копилка знаний в 8 раз меньше, чем кажется. Иными словами это утверждение можно сформулировать так: 75/84*100 = 89,3% предлагаемой в Рунете информации является мусором. Без претензий на объективность, конечно, "анализ" копипаста аж целых девяти статей не может дать достоверной цифры. Если кто поделится более точными данными, с удовольствием опубликую.

...Одного понять не могу - зачем поисковые системы так стремятся индексировать и показывать в результатах поиска этот мусор? У вас есть версии, уважаемые читатели?

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры