Идея описания страниц - одна из древнейших (почти 15 лет) идей организации качественного сетевого поиска. Отравленные ядом "поисковой оптимизации", мы уже не помним, в чем истинный смысл наличия на веб-странице известных всем тегов - title, description и keywords. Обратимся к первоисточникам на официальном сайте WWW-консорциума [1], [2], [3], [4].
[1] Authors should use the TITLE element to identify the contents of a document. Since users often consult documents out of context, authors should provide context-rich titles. Thus, instead of a title such as "Introduction", which doesn't provide much contextual background, authors should supply a title such as "Introduction to Medieval Bee-Keeping" instead. For reasons of accessibility, user agents must always make the content of the TITLE element available to users.
[2] HTML lets authors specify meta data -- information about a document rather than document content -- in a variety of ways.
[3] Some indexing engines look for META elements that define a comma-separated list of keywords/phrases, or that give a short description. Search engines may present these keywords as the result of a search.
<META name="keywords" content="vacation,Greece,sunshine">
<META name="description" content="Idyllic European vacations">
[4] DESCRIPTION meta-tag
<META NAME="DESCRIPTION" CONTENT="...text...">
The intent is that the text can be used by a search service when
printing a summary of the document.
По-русски. Титул (TITLE) - смысловой идентификатор документа, с его помощью пользователи должны иметь возможность представить содержание, не просматривая документ. Поисковые системы всегда должны показывать текст титула пользователям. В HTML-документах предусмотрена возможность размещения метаданных - дополнительной информации о документе, отличной от его содержания. Поисковые системы могут пользоваться метаданными для формирования результатов поиска. Содержимое тега DESCRIPTION может отображаться в результатах поиска как резюме документа. Содержимое тега KEYWORDS представляет собой список слов и фраз, по которым документ должен быть найден.
Идея простая и гениальная: страница должна быть описана для поиска. Автор веб-документа сам указывает в keywords, по каким запросам следует показывать ссылку на документ в результатах поиска. И сам аннотирует его с помощью title и description, определяет внешний вид ссылки, которую увидят пользователи. Т.е. фактически полностью формирует один результат поиска для каждого из самим же выбранных запросов. Поисковая система лишь следует рекомендациям автора, оставляя за собой решение проблемы ранжирования.
Идея, к сожалению, не реализованная. О причинах этого хорошо сказано в статье Молли Э. Хольцшлаг "Консорциум W3C"
"Важно понимать, что разрабатываемые консорциумом W3C рекомендации не являются стандартами...
Консорциум W3C не является ни моим, ни вашим боссом. Задача консорциума - изучение технологий и достижение консенсуса относительно надлежащего функционирования Web. Разработчик сам решает, как ему применять разработанную консорциумом идеологию. Соблюдение рекомендаций не устранит автоматически все проблемы, возникающие в Web-сайтах, а лишь сделает вашу работу более упорядоченной.
Следовать ли рекомендациям W3C - нелегкий вопрос для автора Web. Как известно, свобода порождает ответственность. Хорошее понимание правил дает разработчику больше свободы: он может нарушить их, если нужно внести в разработку нечто новое или, придерживаясь рекомендаций, сделать свой продукт более упорядоченным и совершенным. Разработчик должен понимать, зачем и как он применяет средства разметки..."
Предложив отличную идею описания страниц для поисковых систем, консорциум не стал разрабатывать полноценную идеологию взаимоотношений авторов веб-документов с поисковыми системами. А ведь развитие было очевидно:
- если автор не заполняет тег meta keywords, значит, он не хочет, чтобы его страница соответствовала каким-то запросам в поиске. Т.е. ее не нужно индексировать;
- в случае, когда один веб-документ найден по соответствию поискового запроса содержимому keywords, а другой по соответствию контента, первый документ должен ранжироваться выше. Потому что первый документ был сознательно подготовлен для данного запроса, а совпадение второго может оказаться случайным;
- если автор указывает keywords, но не заполняет или плохо заполняет теги title и description, значит, он не понимает или не признает правила "надлежащего функционирования Web", успех которого полностью зависит от наличия хорошего контента и хороших средств поиска информации;
- если автор указывает в keywords слова и фразы, заведомо несоотвествующие содержанию страницы, выходит - тоже не понимает или не признает;
- популярные поисковые системы - не "зеркало" интернета, а сервисы, определяющие направление развития содержательной части сети. Их отношение к веб-авторам, понимающим и принимающим правила надлежащего функционирования Web должно отличаться от отношения к тем, кто правил не понимает и/или не признает.
Таким образом на организаторов сетевого контента может быть переложена значительная часть ответственности за нормальную работу поисковых систем и развития интернета.
Поддержи эту идею ведущие поисковые системы, Интернет сегодня был бы совсем другим. Акцент технологий "продвижения сайтов в поисковых системах" сместился бы в разработку и обсуждение правил грамотного аннотирования документов, качества и структурирования информации, а не в приемы уродования текстов для соответствия их обедненной лексике поискового спроса, искажения ссылочной структуры сайтов и связей между сайтами, гипертрофированного неумеренным выделением "кивордов" форматирования, "seo-копирайтинга", "рерайтинга", "говносайтерства", "копип...динга", "мэшапов" и др. реалий, в которых мы сейчас живем.
Но - не поддержали поисковики. Более того, увидев, сколько спама пишут авторы веб-контента в метатегах, разработчики пошли, казалось бы, по более легкому пути отказа от использования метаинформации и поиска новых "объективных факторов" для обеспечения релевантности. Куда пришли уже хорошо видно - снова к людям, сформировав своими действиями мощную "антипоисковую промышленность", предназначенную для влияния на поисковые алгоритмы в интересах рекламодателей.
Тезис "свобода порождает ответственность" фраза, конечно, красивая, но в реальной жизни ничем не ограниченная свобода обычно порождает злоупотребления.
Например, автор загадочного сайта "Парадоксы времени" считает, что ссылку на главную страницу нужно показывать по семидесяти разным запросам - music, музыка, demo, демо, party, demoscene, mp3, winamp, house, rave, progressive, trance, electronic, rock, techno, alternative, hip hop, hip-hop, disco, dance, Юмор, юмор, анекдоты, приколы, программирование, программы, халява, проги, звезды, новости, порно, фотки, sex, porno, download, programming, hack, freeware, humor, clipart, britney spears, guns, cars, автомобили, отдых, машины, оружие, энциклопедия, дом, мода, погода, астрологический, знакомства, девушки, деньги, бизнесс, семья, любовь, курс, доллар, Путин, рассказы, истории, время, загадки, таинства, парадоксы, вечность, вселенная, мир, космос - и выглядеть она должна так:
[Парадоксы времени]
Что такое время? Простой вопрос, на который никто не сможет дать чёткий ответ...
На сайте три страницы: а) "Мысли", в количестве пяти штук от разных авторов, б) "Восприятие времени" - с грифом "Извините, раздел временно недоступен", и в) "Сущность времени", каковая подробно описана аж четырьмя абзацами.
Сложно сказать, какие метаморфозы в голове безымянного создателя сайта произошли от размышлений о парадоксах времени. Но даже они не смогли уничтожить идею проспамиться в поисковиках, которую он и попытался реализовать, заполняя тег meta keywords наиболее частотными поисковыми запросами, абсолютно не относящимися к предлагаемой на сайте белиберде. Сайт находится в индексе и Яндекса, и Google, хотя в намерении его владельца наплевать на рекомендации консорциума, интересы поисковых машин и даже на мнения большинства посетителей из поиска можно не сомневаться.
Вы понимаете, читатель, подобные ха-ха-примеры можно приводить сотнями тысяч, см. ниже оценку количества спама в Рунете от Александра Садовского. Причем, не страниц, а сайтов, в пересчете на страницы это уже будут миллионы случаев "злоупотреблений" свободой в отсутствие почему-то не возникшей у веб-авторов ответственности. C'est la vie.
Попытаемся возродить хорошую идею консорциума W3C и рассмотрим практическую задачу - как аннотировать веб-страницу для поиска в Нейроне. Это необходимо сделать, чтобы страница была проиндексирована.
- Выберите НЕ главную страницу сайта, где есть контент, который, на ваш взгляд, должен быть проиндексирован.
Ссылкой на главную страницу обычно аннотируют сайт целиком, мы же сейчас говорим об аннотировании именно контента.
- Найдите одну точную, но лаконичную фразу, с помощью которой пользователь сможет представить, что именно находится на странице. Если это статья, так и пишите "/название/ - статья /имя автора/"; если стихи, пишите "Стихотворения - /автор/"; если заметка, пишите "Заметка о /том-то/"; таблица - "Таблица /того-то/".
Совокупность правильно сформулированных ключевых фраз-запросов дает возможность осуществлять поиск по ним, см. примеры в подсказках "Найти по запросу" для разных жанров текстового контента:
- статья
- стихотворение
- заметка
- таблица
- поэма
- отчет
- рассказ
- сказка
- эссе
- Напишите аннотацию и зарегистрируйте ответ на сформулированный ранее запрос. О том, чего нужно избегать в аннотации, мы говорили в прошлом выпуске.
Если считаете, что получилось хорошо - подавайте заявку на экспертный статус. По статистике, с первой попытки этот внешне простейший тест проходят всего лишь 3,6% испытуемых.
По опыту экспертов, имеющих несколько сотен ответов в Нейроне, при навыке беглого аннотирования появляется желание быстро добавлять закладки на увиденные в Сети новые интересные материалы. Удобнее всего делать это с помощью специальной кнопки в браузере. Об этом мы поговорим через неделю.