Возможно вы искали: 'Resident Evil Mercenar...'

May 10 2025 09:27:34
  • Как сделать 8Gamers.Ru домашней страницей?
  • Игры
    • База данных по играх
    • Игровые новости
    • Игровая индустрия
    • Обзоры на игры
    • Прохождения игр
    • Гайды к играм
    • Превью о играх
    • Игровые тизеры
    • Игровые арты
    • Игровые обои
    • Игровые скриншоты
    • Игровые обложки
    • Игровые трейлеры
    • Игровое видео
    • Вышедшие игры
    • Ближайшие релизы игр
  • Кино и ТВ
    • База данных по кино
    • Статьи о кино
    • Постеры
    • Кадры из кино
    • Кино трейлеры
    • Сегодня в кино
    • Скоро в кино
  • Комиксы и манга
    • Манга по алфавиту
    • База данных по комиксах
    • Читать онлайн комиксы
    • Читать онлайн манга
    • База персонажей
  • Читы и коды
    • Чит-коды для PC игр
    • Чит-коды для консольных игр
    • Трейнеры
    • Коды Game Genie
  • Моддинг
    • Модификации
    • Карты к играм
    • Программы для моддинга
    • Статьи о моддинге
  • Геймдев
    • Всё о создании игр
    • Список движков
    • Утилиты в помощь игроделу
    • Конструкторы игр
    • Игровые движки
    • Библиотеки разработки
    • 3D-модели
    • Спрайты и тайлы
    • Музыка и звуки
    • Текстуры и фоны
  • Рецензии
    • Игры
    • Кино
    • Аниме
    • Комиксы
    • Мангу
    • Саундтреки
  • Саундтреки
    • Лирика
  • Файлы
    • Патчи к играм
    • Русификаторы к играм
    • Сохранения к играм
    • Субтитры к кино
  • Медиа
    • Видео
    • Фото
    • Аудио
    • Фан-арты
    • Косплей
    • Фото с виставок
    • Девушки из игр
    • Рисунки
    • Рисуем онлайн
    • Фотохостинг
  • Юмор
    • Анекдоты
    • Афоризмы
    • Истории
    • Стишки и эпиграммы
    • Тосты
    • Цитаты
  • Флеш
    • Азартные
    • Аркады
    • Бродилки
    • Гонки
    • Для девочек
    • Для мальчиков
    • Драки
    • Квесты
    • Леталки
    • Логические
    • Мультфильмы
    • Открытки
    • Приколы
    • Разное
    • Спорт
    • Стратегии
    • Стрелялки
Статистика

Статей: 87772
Просмотров: 95968184
Игры
Injustice:  Gods Among Us
Injustice: Gods Among Us
...
Dark Souls 2
Dark Souls 2
Dark Souls II - вторая часть самой хардкорной ролевой игры 2011-2012 года, с новым героем, сюжето...
Battlefield 4
Battlefield 4
Battlefield 4 - продолжение венценосного мультиплеер-ориентированного шутера от первого ли...
Кино
Steins;Gate
Steins;Gate
Любители японской анимации уже давно поняли ,что аниме сериалы могут дать порой гораздо больше пи...
Ку! Кин-дза-дза
Ку! Кин-дза-дза
Начинающий диджей Толик и всемирно известный виолончелист Владимир Чижов встречают на шумной моск...
Обзоры на игры
• Обзор Ibara [PCB/PS2] 18339
• Обзор The Walking ... 18780
• Обзор DMC: Devil M... 19858
• Обзор на игру Valk... 15864
• Обзор на игру Stars! 17746
• Обзор на Far Cry 3 17928
• Обзор на Resident ... 16008
• Обзор на Chivalry:... 17490
• Обзор на игру Kerb... 17965
• Обзор игры 007: Fr... 16596
Превью о играх
• Превью к игре Comp... 17940
• Превью о игре Mage... 14444
• Превью Incredible ... 14702
• Превью Firefall 13455
• Превью Dead Space 3 16321
• Превью о игре SimC... 14709
• Превью к игре Fuse 15425
• Превью Red Orche... 15528
• Превью Gothic 3 16329
• Превью Black & W... 17338
Главная » Статьи » Разное » Технология «Спектр» Яндекса и классификация веб-страниц

Технология «Спектр» Яндекса и классификация веб-страниц

Доклад был представлен Евгением Трофименко (promosite.ru) в рамках секции «Исследования поисковых машин и алгоритмов» на конференции Optimization 2011, которая прошла в Москве 24-25 ноября 2011 года.

Свое выступление Евгений посвятил особенностям технологии «Спектр». И начал, как водится, с истории вопроса.

«Спектр» был введен примерно год назад, 15 декабря. Новая поисковая технология была обучена учитывать весь спектр неявных целей пользователей и показывать соответствующие ответы. Именно отсюда и такое название – «Спектр». Спектр касается неявных и неоднозначных запросов к Яндексу.

Когда пользователи задают запросы к Яндексу, примерно в 20% случаев они формулируют запрос неоднозначно. Например, по запросу [наполеон] кто-то хочет найти полководца, а кто-то – рецепт торта. А задавая запрос [суши], человек может искать и ресторан с доставкой на дом, и рецепт этого блюда.

В основе работы «Спектра» лежит статистика поисковых запросов. Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты. Кроме того, «Спектр» умеет учитывать при поиске различные потребности пользователей. У каждой категории есть список возможных потребностей – тех намерений, с которыми пользователи ищут тот или иной объект. Например, когда люди ищут какой-нибудь товар, они, как правило, хотят купить его или почитать отзывы и обзоры. То есть для категории «товары» среди потребностей будут «купить», «отзывы» и «обзоры».

С использованием статистки поисковых запросов выделяются неявные цели. В принципе, это разумно. Кто-то при поиске [ноутбук] хочет купить новый ноутбук, кто-то хочет купить ноутбук б/у.

Сразу после того, как «Спектр» был введен (зима 2010), была похожая ситуация по выдаче. Например, запрос [ноутбуки].

Виды тематик найденных результатов:

1. Тема страницы: «новые, купить». Подсвечены в сниппете: продажа, цена, купить, каталог, новые, т.п.

2. Тема страницы: «б/у». Подсвечены в сниппете: б/у, подержанные, т.п. НЕ Подсвечены: продажа, цена, ремонт

3. Тема страницы: «ремонт» Подсвечены в сниппете: ремонт, т.п. НЕ Подсвечены: продажа, цена, б/у

По мнению Евгения, изначально технология «Спектр» работала правильно. Тематики были раздельные и не пересекались. Тогда работала обычная идея сеошника - написать побольше разных слов, а вдруг чего-нибудь да и вылезет. Сейчас «Спектр» работает по-другому.

Сейчас, для запроса выделяется некий список дополнительных интентов (~намерений, тематик) пользователя, в выдачу добавляются результаты из отдельной базы классифицированных страниц (по соответствию тематике):

- Подсветка «спектровых» слов в «обычных» результатах

- Подсветка всех «спектровых» слов независимо от интентов (тем)

- Подмешивание – это костыль. Иногда возникают сайты, которые вылезают по всем запросам. Это довольно известная вещь, когда по запросу [работа] вылезают сайты про «автофургоны» из-за того, что у него где-то было написано слово «работа», а сам сайт был в более релевантной базе. Конечно же, нельзя предположить, что сайт про автофургоны был классифицирован по запросу [работа]. «Автофургоны» забивают выдачу.

- Бывает несколько примесных результатов по одному интенту. Например, несколько выдач по отзывам. Например, запрос модели машины [Suzuki Grand Vitara]. Там выделены и фотографии и описание, и стоимость, и технические характеристики – все возможные интенты, которые есть, там выделяются:

Как отличить спектровую примесь по одному и тому же интенту, по одной и той же тематике?

По идентификатору документа в XML-выдаче. Выделенные цветом фрагменты регулярно меняются. Видно, что шестой результат и пятый посвящены отзывам, хотя кроме отзывов существует много и других возможных намерений пользователя. У каждого найденного результата есть идентификатор документа:

Обычный документ: 4 фрагмента

<doc id="49-0-16-ZA21FA0474B79859A">

СПЕКТР: 3 фрагмента

<doc id="52-115-Z7725D3069AAE1668">

Быстроробот: 3 фрагмента

<doc id="53-66-Z6AF572834514019F">

Ультраробот (сейчас нет): 2 фрагмента

<doc id="55-Z7725D3069AAE1668“>



Например, в запросе [я] было десять из десяти спектровых результатов в выдаче. И запросы разные типа [перми, казани, новосибирска]. Очень непонятно почему в таком падеже: [виктора цоя], [про собак]. Такое впечатление, что там было первое слово, но потом его отрезали и выкинули, а сам запрос именно в таком виде попал в «Спектр».

Вот запрос [казани], доп. тематики «Спектра» - 7 из 10:

Какие у нас есть наглядные тематики? Карта, достопримечательности, новости, гостиницы. Город Казань – официальный, наверное, какой-то сайт города Казани. И последнее – Gismeteo.ru, погода. Все вроде бы хорошо. Но, когда мы введем запрос [казань], то мы увидим, что «Спектра» просто нет, и никаких примесей тут не просматривается:

Это обычная выдача. Удивительно, что «Спектра» по этому запросу нет, несмотря на то, что частотность у него раз в десять больше, чем у запроса [казани].

Некоторым сайтам везет сильнее. Некоторые сайты очень часто попадают в «Спектр». Понятное дело, что, чем больше запросов, тем больше и сайтов. Из большого количества спектровых примесей, самый большой лидер – это www.torrentino.com, www.zaycev.net, потом опять www.fast-torrent.ru – в общем, развлекательные сайты.

Некоторым сайтам везет временно попасть в «Спектр», их потом вычищают.

Для примера Евгений привел ссылку на статью Браславского и Киселева «Узнать или купить? Классификатор страниц обзоров и интернет-магазинов», которая посвящена похожей теме – выяснению намерений пользователя: http://www.dialog-21.ru/dialog2011/materials/pdf/17/pdf

Shop classifier

Term features. We identifi ed the most informative term-features based on mutual Information … As expected, the most contrasting terms were магазин, рубль, каталог, цена, прайс, and корзина …The full list of terms used for classifi cation consisted of about one hundred terms.

Lexical features. We used the list of trademarks and brands

Review classifier

Term features... lexical variety of reviews is much higher than that of shop pages, the list of contrasting words was much longer and exceeded 7,000 words.

Lexical features. The list of 165 manually collected appraisal adjectives —хороший, прекрасный, великолепный, плохой, отвратительный, ужасный, etc. (good, excellent, magnifi cent, bad, disgusting, awful, etc.)

Человек задает вопрос о возможном товаре и стоит задача решить, он хотел купить этот товар или он хотел почитать о нем. Для классификации запросов и страниц для магазинов используется терминология, где около сотни слов, заметных для магазина. А для классификации обзора используется около 7 тысяч слов, и часть прилагательных выделается вручную. Порядок слов в классификаторе – 7-10 тысяч.

Соответственно, была сделана некоторая группа выделения всех спектровых примесей. Самые частотные слова – [скачать], [mp3], [онлайн], [отзывы]. Самая частотная тематика – это, конечно, [торрент], [mp3], [фильмы]. Самый топ дополнительных слов «новизна» - 2011, отзывы, карты и так далее. Даже такие слова, как «сайт» и «меню» тоже используются для этой классификации. Реально можно поискать какой-нибудь запрос и там будет выделено слово «сайт» или «меню».

Но самое интересное, что выдача – это еще и многословные фрагменты. Например, запрос [пицца] в Москве. Видно, что [пицца] и [доставка] выделяются отдельно, а фрагмент [на дом] выделен целиком. Два слова в одном фрагменте:





Вообще, выдача таких многословных фрагментов в «Спектре» очень большая. Из общего количества 83 тысячи, встречалось 20-25% спектровых примесей, а уникальных было только 127 штук.

Топ многословных фрагментов выглядит так:
что такое - 21773, 26.1%

смотреть онлайн - 17034, 20.4%

текст песни - 10970, 13.1%

своими руками - 9809, 11.7%

в домашних условиях - 4062, 4.9%

прогноз погоды - 2639, 3.2%

отзывы владельцев - 2324, 2.8%

слова песни - 2049, 2.5%

тексты песен - 1862, 2.2%

скачать драйвера - 1001, 1.2%

на карте - 992, 1.2%

технические характеристики - 970, 1.2%

онлайн смотреть - 899, 1.1%

краткое содержание - 741, 0.9%

карта города - 681, 0.8%

скачать драйвер - 634, 0.8%
Очевидно, что эти фрагменты добавляются вручную. Но, конечно, страшновато, что Яндекс начнет учитывать эти слова при ранжировании, потому что они пока при ранжировании не используются, а используются только в классификаторе «Спектра». Что делать?

Если предположить, что в ранжировании они не участвуют, то единственный возможный интерес – это попасть в спектровые примеси. Далее – качественный сайт. Некоторые сайты подмешиваются чаще. Выяснять классификационные слова и многословные фрагменты для ваших запросов (запросы на разные тематики). Не стесняться их употреблять в тексте. И так далее.

Спасибо за внимание!

Зал: - Не исследовался ли тип запроса, который попадает в спектральную примесь? Понятно, что он должен содержать дополнительные слова, которые характеризуют интенты. Идут ли они через оператора или еще каким-то образом добавляются? То, что мы слова можем вычленить – понятно. Возьмем тематику самостоятельно, впишем условия. Все эти вещи мы можем вычислить и слова и фразы. Но логично предположить, что в сайты попадает примесь по этим интентам и они являются лидерами по какому-то запросу. Проводилось ли такое исследование? Либо на запросы, либо на лидера по группе запросов. Что это за запрос? Или вообще это другой вид попадания?

Евгений Трофименко: - Тут два варианта твоего вопроса. Либо про запрос, либо про пересечение тематик в «Спектре».

Зал: - Про запросы.

Евгений Трофименко: - Нет, это не исследовалось.

Зал: - То есть, логично предположить, чтобы решить задачу попадания в «Спектр», надо понять по какому запросу и стать по нему лидером?

Евгений Трофименко: - Не лидером. Я думаю, что надо взять хоть один запрос, по которому есть спектр, и который вам подходит.

Зал: - Раньше был один спектральный результат, и он выводился на каком-то одном фиксированном месте, на шестом или на восьмом. Потом спектральный результат стал номер один и занимает первое место?

Евгений Трофименко: - То есть, вы хотите спросить, как происходит изменение позиций в спектральной примеси?

Зал: - Да. Может быть, это исследовалось?

Евгений Трофименко: - Нет, это не исследовалось. Просто нужно обработать небольшой набор запросов.

Зал: - То есть, просто меняется позиции спектральной примеси?

Евгений Трофименко: - Конечно, меняется.

Зал: - Хотелось бы уточнить, откуда брать вот эти доп. слова для подмешивания?

Евгений Трофименко: - Парсить выдачу тех запросов, которые вас интересуют.

Зал: - Но там не все, наверное, будут?

Евгений Трофименко: - Да, там не все. И, чтобы не все парсить, вы по каждому найденному сайту, перебираете три сайта. После этого там тоже десяточка подсвечивается. И перебирая разные urlы внутри сайта, можно вытащить побольше.
1108 Прочтений •  [Технология «Спектр» Яндекса и классификация веб-страниц] [20.04.2012] [Комментариев: 0]
Добавил: Ukraine Vova
Ссылки
HTML: 
[BB Url]: 
Похожие статьи
Название Добавил Добавлено
• Технология «Спектр» Яндекса и класс... Ukraine Vova 20.04.2012
Ни одного комментария? Будешь первым :).
Пожалуйста, авторизуйтесь для добавления комментария.

Проект входит в сеть сайтов «8Gamers Network»

Все права сохранены. 8Gamers.NET © 2011 - 2025

Статьи
Рецензия на Pressure
Рецензия на Pressure
Чтобы обратить на себя внимание, начинающие маленькие разработчики, как правило, уходят в жанры, ...
Рецензия на Lost Chronicles of Zerzura
Рецензия на Lost Chron...
Игры, сделанные без любви и старания, похожи на воздушный шар – оболочка есть, а внутри пусто. Lo...
Рецензия на The Bridge
Рецензия на The Bridge
«Верх» и «низ» в The Bridge — понятия относительные. Прогуливаясь под аркой, можно запросто перей...
Рецензия на SimCity
Рецензия на SimCity
Когда месяц назад состоялся релиз SimCity, по Сети прокатилось цунами народного гнева – глупые ош...
Рецензия на Strategy & Tactics: World War 2
Рецензия на Strategy &...
Название Strategy & Tactics: World War II вряд ли кому-то знакомо. Зато одного взгляда на ее скри...
Рецензия на игру Scribblenauts Unlimited
Рецензия на игру Scrib...
По сложившейся традиции в информационной карточке игры мы приводим в пример несколько похожих игр...
Рецензия на игру Walking Dead: Survival Instinct, The
Рецензия на игру Walki...
Зомби и продукция-по-лицензии — которые и сами по себе не лучшие представители игровой биосферы —...
Обратная связь | RSS | Донейт | Статистика | Команда | Техническая поддержка