Илья Сегалович. Интервью с главным программистом Яндекса
Как я и обещал полгода назад, публикую сегодня интервью с Ильей Сегаловичем, главным программистом Яндекса. По сути, это лог разговора в аське, из которого выдраны даты сообщений и переформатирован текст.
Gray: Как получилось так, что Вы начали заниматься вопросами поиска - возникла очередная задача или сознательно решили работать именно в этом направлении? Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка и относился к этой деятельности поверхностно и снисходительно (до этого я занимался интегральными уравнениями второго рода в геофизике :)) позвал меня сначала на мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я втянулся и понял, что это всерьез и надолго. Gray: Аркаша - это Волож? Сегалович: :) воложок Gray: Надо запомнить :) А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели или учились в бою - есть задание, надо его выполнять? Сегалович: когда мне волож рассказал про их с Борковским идею искать со словоформами я решил - это заезжено и тривиально потом стал писать, влез в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д. и т.д Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok) и я познакомился с Апресяном и Ко. Стало еще интересней :) Gray: И когда в итоге интерес достиг высшей точки? Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7 назад, можно уже спокойно вернуться в геофизику” :) может я так и сделаю, когда-нибудь, пока мне здесь интересно. Gray: А в чем вопрос? Геофизика тянет? Сегалович: если бы не было веба, то поисковые системы - сильно вычерпанная тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность (социальная значимость :)) выросла на порядки - это случилось как-то вдруг в 1995-1996 годах. Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной (теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял? Сегалович: ага. Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая конкуренция - стало очень интересно жить. Gray: и именно это держит Вас в Яндексе? Сегалович: Ну, зачем же так упрощать :) Зарплата еще хорошая :). Gray: понятно. Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие? Неужели это только борьба со спаммерами? Сегалович: ну почему же - это масса интересных задач как технического, так и социального смысла: - mirrors mirrors on the web - каталог и его связь с поиском - размеры большие - да много чего еще короче, не только и не столько спаммеры, сколько просто обеспечение свежести, полноты, точности в масштабах веба - очень интересная задача. Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков? Скажем, технология PageRank, применяемая Google, учитывается в Я.? Сегалович: pagerank это не технология а классический алгоритм расчета “взвешенной цитируемости” - простая задача из теории графов - прямо в интернете можно найти учебники по теории графов с оцень похожими задачами (определение победителя в шахматном турнире по швейцарке и т.п.) Да, мы считаем взвешенный индекс цитирования - но “бес кроется в деталях”. :) Gray: Google прямо говорит, что наличие ссылок необходимо для индексации документа, т.е. PageRank - это основной фактор в поиске. Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того. В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов большинство. Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется или пока только шлифовка, устранение глюков и т.д? C: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем новый. Gray: А какие вообще теоретически есть возможности модернизации поиска? Т.е. что можно сделать, но оно пока не имеет смысла или нерентабельно? Сегалович: я пытался на это отвечать в вопроснике украинцам - более широкое и глубже осмысленное использование “внетекстовых” критериев (то есть, инфомации “вне” текста индексируемого документа) - это надо раскрывать подробнее - более широкое применение P2P - умная кластеризация выдачи - развитие контекстно-зависимого аннотирования. Gray: т.е. в целом это можно назвать созданием искусственного интеллекта на сервере, который бы анализировал запрос и искал по доступной базе по тем же критериям, что и человек? Сегалович: ни за что на свете - я ненавижу сочетание искусственный интеллект. У нас оно используется, в основном, в издевательском смысле :) Посмотрите, как напыщенно переводится information retrieval на русский - никто не пишет “поиск”, самое скромное - “интеллектуальные системы” :). оставим “интеллект” конторам типа гербалайф-эскалибур:), мы же просто ищем. Продолжение следует…
450 Прочтений • [Илья Сегалович. Интервью с главным программистом Яндекса] [20.04.2012] [Комментариев: 0]