Технология «Спектр» Яндекса и классификация веб-страниц
Доклад был представлен Евгением Трофименко (promosite.ru) в рамках секции «Исследования поисковых машин и алгоритмов» на конференции Optimization 2011, которая прошла в Москве 24-25 ноября 2011 года.
Свое выступление Евгений посвятил особенностям технологии «Спектр». И начал, как водится, с истории вопроса.
«Спектр» был введен примерно год назад, 15 декабря. Новая поисковая технология была обучена учитывать весь спектр неявных целей пользователей и показывать соответствующие ответы. Именно отсюда и такое название – «Спектр». Спектр касается неявных и неоднозначных запросов к Яндексу.
Когда пользователи задают запросы к Яндексу, примерно в 20% случаев они формулируют запрос неоднозначно. Например, по запросу [наполеон] кто-то хочет найти полководца, а кто-то – рецепт торта. А задавая запрос [суши], человек может искать и ресторан с доставкой на дом, и рецепт этого блюда.
В основе работы «Спектра» лежит статистика поисковых запросов. Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты. Кроме того, «Спектр» умеет учитывать при поиске различные потребности пользователей. У каждой категории есть список возможных потребностей – тех намерений, с которыми пользователи ищут тот или иной объект. Например, когда люди ищут какой-нибудь товар, они, как правило, хотят купить его или почитать отзывы и обзоры. То есть для категории «товары» среди потребностей будут «купить», «отзывы» и «обзоры».
С использованием статистки поисковых запросов выделяются неявные цели. В принципе, это разумно. Кто-то при поиске [ноутбук] хочет купить новый ноутбук, кто-то хочет купить ноутбук б/у.
Сразу после того, как «Спектр» был введен (зима 2010), была похожая ситуация по выдаче. Например, запрос [ноутбуки].
2. Тема страницы: «б/у». Подсвечены в сниппете: б/у, подержанные, т.п. НЕ Подсвечены: продажа, цена, ремонт
3. Тема страницы: «ремонт» Подсвечены в сниппете: ремонт, т.п. НЕ Подсвечены: продажа, цена, б/у
По мнению Евгения, изначально технология «Спектр» работала правильно. Тематики были раздельные и не пересекались. Тогда работала обычная идея сеошника - написать побольше разных слов, а вдруг чего-нибудь да и вылезет. Сейчас «Спектр» работает по-другому.
Сейчас, для запроса выделяется некий список дополнительных интентов (~намерений, тематик) пользователя, в выдачу добавляются результаты из отдельной базы классифицированных страниц (по соответствию тематике):
- Подсветка «спектровых» слов в «обычных» результатах
- Подсветка всех «спектровых» слов независимо от интентов (тем)
- Подмешивание – это костыль. Иногда возникают сайты, которые вылезают по всем запросам. Это довольно известная вещь, когда по запросу [работа] вылезают сайты про «автофургоны» из-за того, что у него где-то было написано слово «работа», а сам сайт был в более релевантной базе. Конечно же, нельзя предположить, что сайт про автофургоны был классифицирован по запросу [работа]. «Автофургоны» забивают выдачу.
- Бывает несколько примесных результатов по одному интенту. Например, несколько выдач по отзывам. Например, запрос модели машины [Suzuki Grand Vitara]. Там выделены и фотографии и описание, и стоимость, и технические характеристики – все возможные интенты, которые есть, там выделяются:
Как отличить спектровую примесь по одному и тому же интенту, по одной и той же тематике?
По идентификатору документа в XML-выдаче. Выделенные цветом фрагменты регулярно меняются. Видно, что шестой результат и пятый посвящены отзывам, хотя кроме отзывов существует много и других возможных намерений пользователя. У каждого найденного результата есть идентификатор документа:
Обычный документ: 4 фрагмента
<doc id="49-0-16-ZA21FA0474B79859A">
СПЕКТР: 3 фрагмента
<doc id="52-115-Z7725D3069AAE1668">
Быстроробот: 3 фрагмента
<doc id="53-66-Z6AF572834514019F">
Ультраробот (сейчас нет): 2 фрагмента
<doc id="55-Z7725D3069AAE1668“>
Например, в запросе [я] было десять из десяти спектровых результатов в выдаче. И запросы разные типа [перми, казани, новосибирска]. Очень непонятно почему в таком падеже: [виктора цоя], [про собак]. Такое впечатление, что там было первое слово, но потом его отрезали и выкинули, а сам запрос именно в таком виде попал в «Спектр».
Вот запрос [казани], доп. тематики «Спектра» - 7 из 10:
Какие у нас есть наглядные тематики? Карта, достопримечательности, новости, гостиницы. Город Казань – официальный, наверное, какой-то сайт города Казани. И последнее – Gismeteo.ru, погода. Все вроде бы хорошо. Но, когда мы введем запрос [казань], то мы увидим, что «Спектра» просто нет, и никаких примесей тут не просматривается:
Это обычная выдача. Удивительно, что «Спектра» по этому запросу нет, несмотря на то, что частотность у него раз в десять больше, чем у запроса [казани].
Некоторым сайтам везет сильнее. Некоторые сайты очень часто попадают в «Спектр». Понятное дело, что, чем больше запросов, тем больше и сайтов. Из большого количества спектровых примесей, самый большой лидер – это www.torrentino.com, www.zaycev.net, потом опять www.fast-torrent.ru – в общем, развлекательные сайты.
Некоторым сайтам везет временно попасть в «Спектр», их потом вычищают.
Для примера Евгений привел ссылку на статью Браславского и Киселева «Узнать или купить? Классификатор страниц обзоров и интернет-магазинов», которая посвящена похожей теме – выяснению намерений пользователя: http://www.dialog-21.ru/dialog2011/materials/pdf/17/pdf
Shop classifier
Term features. We identifi ed the most informative term-features based on mutual Information … As expected, the most contrasting terms were магазин, рубль, каталог, цена, прайс, and корзина …The full list of terms used for classifi cation consisted of about one hundred terms.
Lexical features. We used the list of trademarks and brands
Review classifier
Term features... lexical variety of reviews is much higher than that of shop pages, the list of contrasting words was much longer and exceeded 7,000 words.
Lexical features.The list of 165 manually collected appraisal adjectives —хороший, прекрасный, великолепный, плохой, отвратительный, ужасный, etc. (good, excellent, magnifi cent, bad, disgusting, awful, etc.)
Человек задает вопрос о возможном товаре и стоит задача решить, он хотел купить этот товар или он хотел почитать о нем. Для классификации запросов и страниц для магазинов используется терминология, где около сотни слов, заметных для магазина. А для классификации обзора используется около 7 тысяч слов, и часть прилагательных выделается вручную. Порядок слов в классификаторе – 7-10 тысяч.
Соответственно, была сделана некоторая группа выделения всех спектровых примесей. Самые частотные слова – [скачать], [mp3], [онлайн], [отзывы]. Самая частотная тематика – это, конечно, [торрент], [mp3], [фильмы]. Самый топ дополнительных слов «новизна» - 2011, отзывы, карты и так далее. Даже такие слова, как «сайт» и «меню» тоже используются для этой классификации. Реально можно поискать какой-нибудь запрос и там будет выделено слово «сайт» или «меню».
Но самое интересное, что выдача – это еще и многословные фрагменты. Например, запрос [пицца] в Москве. Видно, что [пицца] и [доставка] выделяются отдельно, а фрагмент [на дом] выделен целиком. Два слова в одном фрагменте:
Вообще, выдача таких многословных фрагментов в «Спектре» очень большая. Из общего количества 83 тысячи, встречалось 20-25% спектровых примесей, а уникальных было только 127 штук.
Топ многословных фрагментов выглядит так:
что такое - 21773, 26.1%
смотреть онлайн - 17034, 20.4%
текст песни - 10970, 13.1%
своими руками - 9809, 11.7%
в домашних условиях - 4062, 4.9%
прогноз погоды - 2639, 3.2%
отзывы владельцев - 2324, 2.8%
слова песни - 2049, 2.5%
тексты песен - 1862, 2.2%
скачать драйвера - 1001, 1.2%
на карте - 992, 1.2%
технические характеристики - 970, 1.2%
онлайн смотреть - 899, 1.1%
краткое содержание - 741, 0.9%
карта города - 681, 0.8%
скачать драйвер - 634, 0.8%
Очевидно, что эти фрагменты добавляются вручную. Но, конечно, страшновато, что Яндекс начнет учитывать эти слова при ранжировании, потому что они пока при ранжировании не используются, а используются только в классификаторе «Спектра». Что делать?
Если предположить, что в ранжировании они не участвуют, то единственный возможный интерес – это попасть в спектровые примеси. Далее – качественный сайт. Некоторые сайты подмешиваются чаще. Выяснять классификационные слова и многословные фрагменты для ваших запросов (запросы на разные тематики). Не стесняться их употреблять в тексте. И так далее.
Спасибо за внимание!
Зал: - Не исследовался ли тип запроса, который попадает в спектральную примесь? Понятно, что он должен содержать дополнительные слова, которые характеризуют интенты. Идут ли они через оператора или еще каким-то образом добавляются? То, что мы слова можем вычленить – понятно. Возьмем тематику самостоятельно, впишем условия. Все эти вещи мы можем вычислить и слова и фразы. Но логично предположить, что в сайты попадает примесь по этим интентам и они являются лидерами по какому-то запросу. Проводилось ли такое исследование? Либо на запросы, либо на лидера по группе запросов. Что это за запрос? Или вообще это другой вид попадания?
Евгений Трофименко: - Тут два варианта твоего вопроса. Либо про запрос, либо про пересечение тематик в «Спектре».
Зал: - Про запросы.
Евгений Трофименко: - Нет, это не исследовалось.
Зал: - То есть, логично предположить, чтобы решить задачу попадания в «Спектр», надо понять по какому запросу и стать по нему лидером?
Евгений Трофименко: - Не лидером. Я думаю, что надо взять хоть один запрос, по которому есть спектр, и который вам подходит.
Зал: - Раньше был один спектральный результат, и он выводился на каком-то одном фиксированном месте, на шестом или на восьмом. Потом спектральный результат стал номер один и занимает первое место?
Евгений Трофименко: - То есть, вы хотите спросить, как происходит изменение позиций в спектральной примеси?
Зал: - Да. Может быть, это исследовалось?
Евгений Трофименко: - Нет, это не исследовалось. Просто нужно обработать небольшой набор запросов.
Зал: - То есть, просто меняется позиции спектральной примеси?
Евгений Трофименко: - Конечно, меняется.
Зал: - Хотелось бы уточнить, откуда брать вот эти доп. слова для подмешивания?
Евгений Трофименко: - Парсить выдачу тех запросов, которые вас интересуют.
Зал: - Но там не все, наверное, будут?
Евгений Трофименко: - Да, там не все. И, чтобы не все парсить, вы по каждому найденному сайту, перебираете три сайта. После этого там тоже десяточка подсвечивается. И перебирая разные urlы внутри сайта, можно вытащить побольше.