Optimization 2010: Сергей Протасов «Новое ранжирование Рамблера. Почему мы отказались от MatrixNet»
Сегодня, 11 ноября, на девятой ежегодной конференции «Поисковая оптимизация и продвижение сайтов в интернете» в рамках второй секции «Поисковые машины» прозвучал доклад ведущего специалиста «Рамблер Интернет Холдинга» Сергея Протасова«Новое ранжирование Рамблера. Почему мы отказались от MatrixNet»Главные тезисы доклада: Почему мы не стали использовать MatrixNet? У всех похожих алгоритмов есть проблема: необходимость асессоров. Из-за их дефицита возникает снижение качества поиска. Во-первых, для части вопросов возникает непонимание запроса или расхождение во мнении. К примеру, у нас есть два асессора: врач и специалист по «взрослым» сайтам. В этом случае качество поиска понизится. Для того чтобы полноценно обучить алгоритм, нужны эксперты по всем вопросам, а это невозможно. Во-вторых, существует расхождение мнений асессоров. Для решения обеих проблем нужно расширять штат до тех пор, пока не появится какое-то однообразие мнений. Для примера, чтобы разметить запрос «транстелеком» может не хватить более 100,000 экспертов, пока не появится специалист, работавший в этой компании, который знает, что название поменялось. Он один ответит правильно, но «среднее» мнение – все равно будет неправильным и будет снижать качество поиска. Еще одна проблема - «шумящие» факторы: они не только бесполезны, но и могут снижать качество при добавлении в факторы ранжирования. Различать факторы слабые или шумящие сложно, чтобы более точно определить качество факторов – опять же нужно расширять штат экспертов. Получается зависимость: чем больше экспертов, тем лучше качество. При этой ситуации очень быстро наступает бюджетное ограничение. Кроме того, есть проблемы обучения: эксперты смотрят друг на друга, разнообразие мнений падает и падает качество. Поэтому наши эксперты – наши пользователи. Часть поисковых систем может, реинженируя чужой поиск, решить проблему количества экспертов, но в этой ситуации они не смогут подняться выше оригинала. Если решить и это – получаются такие же результаты. Исследование схожести, проведенное Рамблером: -самые непохожие Bing и Mail -самые похожие Google и Яндекс Рамблер хочет отличаться, а не походить. Поэтому новое ранжирование – использование поведения пользователей, а не экспертов. Модели поведения пользователей: если он кликнет на этот результат – результат стоит поднять. Мы отдаем основное внимание первым трем результатам, на них должны быть самые качественные результаты. Для того, чтобы бороться с обратной связью, используется рандомизация – перемешивание выдачи ежедневно. Чем дольше работает наш алгоритм, тем лучше качество поиска. К каждому запросу мы стараемся подходить индивидуально. Если результат плохой, мы увеличиваем глубину рандомизации, и наверх могут попасть больше новых сайтов. Формула ранжирования меняется раз в неделю, чтобы ее нельзя было восстановить. По коммерческим запросам первая сотня очень похожа, поэтому несправедливо отдавать весь трафик только первым 3 сайтам, соответственно, первая сотня все время меняется местами. Как тестируется качество поиска: «выкатывается» новый поиск, и оценивается средняя позиция кликов. Мы придумали технологию, которая анализирует не только свою, но и чужую выдачу. Раз в несколько сотен мы показывает чужую выдачу, и сравниваем поведение пользователей по сравнению с нашей выдачей. При сравнении мы пытаемся спрогнозировать, сможем ли мы завоевать большую долю рынка, выводя определенные метрики. Если метрика позволяет предсказать долю рынка – она хорошая, если нет – она не соответствует действительности. По нашему мнению на долю рынка влияет много факторов, но достаточно 2-х: качество и маркетинг. По нашим метрикам мы регистрируем, когда у кого какое качество и наблюдаем корреляцию между долей и рынком. Только Яндекс и Google не вписываются в эту модель: Google при очень высоком качестве не растет, а Яндекс растет. Наверное, дело в маркетинге. Основная аудитория поисковиков сформировалась в последние 2-3 года. Нужно оценить не только метрики качества, но и метрики маркетинга: - доля незнающих пользователей: когда поиск не работает, часть пользователей не переходит на другие поисковики. 2/3 пользователей Яндекса не знают других поисковиков, или не хотят переходить. - сила бренда. Чем более влиятелен бренд, тем чаще его ищут. Яндекс вводят в 2 раза чаще, чем другие. - доля новых пользователей: счетчик Рамблер топ-100, по cookie ситуация такая, что обычная доля 3-4%, возраст cookie 30 дней. У Яндекса бывают дни, когда их становится до 11%, а возраст cookie – 7 минут. Откуда они берутся нам неизвестно (возможно, из телевидения). По нашим прогнозам доля Яндекса будет увеличиваться за счет маркетинга. После стабилизации пользователям станет интересно качество. Наше положение – мы должны перестать падать, и начать расти как все, на 60% в год. Пока мы падаем на 5% в месяц. После того, как мы выкатили новое ранжирование, мы несколько стабилизировались. Вопрос из зала: - Прозвучало, что вы стремитесь отличаться от Google и Яндекса. У вас другая целевая аудитория или вы не согласны с их подходами? Сергей Протасов: - Мы хотим представить уникальный контент. У нас другой подход к составлению индекса, краулингу. Мы уже ничего не можем сделать, кроме улучшения качества. Вопрос из зала: - Какое количество асессоров у вас было, неужели у Яндекса их гораздо больше? Может, у Яндекса асессоров больше, чем у вас пользователей? Сергей Протасов: - У нас было мало асессоров – целых два. Они ушли в Яндекс. Но у Яндекса вряд ли есть несколько миллионов асессоров. Вопрос из зала: - У вас в презентации так получилось, что тысячи экспертов могут оценивать 70 факторов. Яндекс использует более 1000 факторов, сколько же у них, по-вашему, должно быть асессоров? Сергей Протасов: - Этот вопрос стоит задать Яндексу. Мы считаем, что количество факторов и экспертов соотносятся в геометрической прогрессии. Вопрос из зала: - Вы нам показали, что асессоры – это не очень хорошо, что они ошибаются и не могут согласиться. Данные они дают плохие? Сергей Протасов: - Да, плохие. Вопрос из зала: - Другие поисковые системы учатся на плохих асессорских оценках, дают выдачу, которая еще хуже, а вы учитесь на этой выдаче? Сергей Протасов: - Нет, мы думаем, что другие поисковики могут обучаться. Мы не стали обучаться на выдаче. Вопрос из зала: - А на чем тогда? Сергей Протасов: - На пользователях, их у нас несколько миллионов, этого хватит, чтобы «забить» несколько сот асессоров. Вопрос из зала: - Вы учитываете мнение пользователей, но неявно. Можно ли поставить галочку, что это плохой сайт? Сергей Протасов: - Это приведет к накруткам. Вопрос из зала: - Вы оцениваете мнение пользователей – по кликам, а как быть со сложными редкими запросами, если по ним ваши пользователи не кликали? Сергей Протасов: - Мы используем некие аппроксимации.. машинное обучение. Вопрос из зала: - То есть, вы не учите оптимизировать релевантность? Вы оптимизируете кликабельность? Сергей Протасов: - Не совсем так, кликабельность только один из факторов. Вопрос из зала: - Вы видите, что используя клики – вы становитесь «желтыми» - новостными, трешевыми? Сергей Протасов: - Мы это видим. Эксперты нужны, но в небольшом качестве. Вопрос из зала: - Составляли ли вы портрет вашей целевой аудитории, те, кто ушел с Яндекса в пользу качества, которое, по вашим словам у Рамблера, лучше, чем у Яндекса? Сергей Протасов: - Это пользователи нашего портала, пока только за счет их мы можем увеличить аудиторию.
1349 Прочтений • [Optimization 2010: Сергей Протасов «Новое ранжирование Рамблера. Почему мы отказались от MatrixNet»] [20.04.2012] [Комментариев: 0]