Что Яндекс рассказывал студентам про Поиск? (часть II)
Внимательные и постоянные читатели Searchengines.ru помнят, что на прошлой неделе Яндекс устроил Студенческий день и рассказал на первоапрельской (но вовсе не шуточной) конференции о поиске и поисковых сервисах. В первой части обзора мы писали о том, что на СтуДне Илья Сегалович коротко посветил студентов в историю становления компании и поисковика, Анатолий Орлов рассказал о поисковом индексе, очаровательная «сисадминша» Татьяна Бахаревская о нагрузках и дата-центрах. Кроме того, Виталий Титов поведал слушателям про анализ запросов, Александр Садовский о поиске и принятии решении, Фёдор Романенко о ранжировании. Матрикснет Некоторые факты о Матрикснете рассказали Аркадий Волож и Илья Сегалович на пресс-конференции в рамках СтуДня. «В прошлом году у нас произошёл сильный прорыв в области поиска. А именно речь идёт о запуске Матрикснета», - начал выступление Аркадий Волож. Аркадий напомнил, что наука, стоящая за Матрикснетом, называется - машинное обучение. Наука не новая, возникла в 50-е гг., когда появились первые радары во время войны. С тех пор многие задавались вопросом, как улучшить работу того, чтобы не диспетчер отличал своих от чужих, а машина. Сейчас машинное обучение применяется в области распознавания текста, голоса. На сегодняшний момент имеется десяток разных школ по машинному обучению. И 2 из этих школ считаются основными – SVM и Boosting. Первая половина машинного обучения – асессоры. Вторая половина – как можно больше признаков. В Яндексе учитываются многие сотни признаков, относящихся к документу, запросу, сайту, пользователю. Среди них: • слова запроса в документе • слова в ссылках на документ • комбинация (1) и (2) • URL документа • лексика всего сайта • ссылочная популярность сайта и документа • посещаемость • структура сайта, запроса, документа • поведение пользователя • регион пользователя • и т.д. Все признаки значимы и важны в той или иной мере. Чем Яндекс отличается от TreeNet: • Строятся более устойчивые решающие правила. • Не теряется ни один обучающий пример (регуляризация значений в листах). • Умение считать быстро (начинаем с простых моделей, заканчиваем сложными). В результате научились строить очень сложные модели. Раньше полагали, что чем сложнее модель, тем более она склонна к переобучению. Но благодаря Матрикснету оказалось, что можно строить очень сложные модели, которые детально покрывают все особенности данных и оценок, и в то же время не переобучать. Даже более того, чем длиннее строится решение, тем точнее оно работает. В результате чего получаем: • Модель из тысяч решающих правил лучше отвечает на редкие и трудные запросы. • Обучение по отдельным классам запросов. • Кластеризация вычислений = скорость работы = практическая применимость. Матрикснет позволил покрыть большее количество городов, для которых показывается локальная выдача. Аркадий Волож сообщил интересную статистику. Если версии поисковых платформ улучшают качество поиска на 0,1%, они выкладывается в продажу. Большие релизы Яндекса (например, Арзамас) - это улучшение качества на 1-2%. С запуском Матрикснета произошёл скачок в 5%. О людях, делающих Яндекс В компании работает 2060 человек. Тысячный сотрудник был принят на работу в Яндекс в 2007 году. Двухтысячным работником Яндекс пополнился сравнительно недавно – в начале 2010 года. В компании работают люди в возрасте от 20 до 55 лет. Средний возраст сотрудника Яндекса – 27 лет. Рабочий коллектив представляет 150 вузов России и стран СНГ. Так как аудитория, собравшаяся на Я.Студне, преимущественно молодая, студенческая, то им сообщили приятную новость. Студентов в Яндекс берут, даже без опыта работы. За первый квартал 2010 года в Яндекс пришли работать 15 студентов, 10 из них в департамент разработки, 4 в маркетинге и 1 в управление проектами. За подбор персонала в Яндексе отвечают 7 человек. При трудоустройстве в Яндекс положительную роль играют рекомендации самих сотрудников. Как же организовывается внутренняя работа свыше 2 тыс. человек? Отчасти секрет кроется во внутренних координирующих сервисах. Вики – один из основных внутренних сервисов, в котором публикуется различная внутренняя информация. [Самый известный публичный вики проект – Википедия.] Вики Яндекса 7 лет. По объёму страниц она занимает 10% от русской Википедии. Ежедневно сюда добавляется 60-70 новых страниц. За время своего существования (с 2003 г.) здесь накопилось достаточно много различной информации. Чаще всего на Вики Яндекса сотрудники просматривают меню в столовой, так как оно ежедневно обновляется. Вторая по популярности страница – check list с задачами по релизу первой страницы Яндекса. В среднем сотрудник Яндекса подписан на 17 рассылок. Рекордсмен – обсуждение того, что неправильно в столовой режут яблоки. Фото с Я.Студня в блоге Елизаветы Трибунской, Андрея Себранта, а также на highlander-ku.livejournal.com. Обзор подготовила Светлана Чернева.