Дмитрий Завалишин (Digital Zone) - От семантики к смысловому анализу. Перспективы развития поисковых систем контекста
Поисковые системы не анализируют смысл, мы же не ищем не ключевые слова, мы ищем смысл, информацию. Сделать поисковую систему, которая понимала бы смысл невозможно – все предложения многозначны. Попытки создания таких систем были, в лучшем случае среднеудачные, в худшем – провальные. Что такое смысл? Смысл для информации – это положение информации на определенной карте. Это возможность отнести информацию к карте и чем более точно мы сможем соотнести, тем лучше будет поиск. Что такое карта для поиска? Эта карта – Википедия, уникальное огромное собрание информации, которая прекрасно структурирована. Это «совокупность всех заблуждений мира». Неидеальность Википедии – это именно та неидеальность общества, которая нужна поисковой системе. Если пользоваться ей как картой смысла, то мы будем в одной фазе с обществом. Википедия отображает термины по тематикам. На сегодня есть тестовая среда, которая умеет делать следующее: на базе Википедии она делает дерево категорий. Эта структура построена для русского языка и для русского языка в ней 32,000 позиций. На свете нет ни одного текста, который был бы в одной категории. Любой документ содержит 2-3 темы. Система находит все возможные темы и выдает индекс, насколько хорошо представлена тема. Также система умеет общаться с пользователем. Если вы неправильно задали запрос к любой поисковой системе, вам выдают документы, в которых есть никому не нужное слово. Массив информации, с которой никак нельзя работать. Решением является постепенное изменение запроса. Наша поисковая система выполняет простую вещь – она может отсеять результаты по категориям ( например, «про химию» и «про Францию» при запросе «франций»). Если человек не в состоянии владеть темой, можно получить поисковую среду, которая сама будет вести его по смыслу, давая подсказки (как пример ключ – музыкальный, информационный, от замка). Этот инструмент, который работает с уже найденным. Можно также работать до поиска – предложить тематики поиска не по слову, а по смыслу. Система находит варианты смыслов, предлагая варианты запросов, найденные в одной категории и близкие по значению. Выбираются тематики, которые одновременно попадают под нужную категорию. До нас люди создавали Тезаурус, систему синонимов. В это системе все города России были синонимом слова «Россия», что однозначно неверно. При таком подходе сильно увеличивается объем выдачи, но качество нет. Поэтому, не надо ее расширять, а надо уточнять. Система как продукт началась с задачи сделать таргетированную рекламу. Персонализированную рекламу, которая знает: -интересы пользователей по отношению к товарам -не использует баз данных соц сетей Во-первых, заполнение профилей в социальных сетях не консистентно, кто-то укажет, что он мужчина, а кто-то, что не курит; во вторых, хранение информации о пользователях, напрямую не связанной с бизнесом, незаконно. Система должна была знать, о чем думают пользователи, что им продать, без персональной информации. Есть: след человека url , сайты, из них нужно выудить интересы человека. Нужно было проанализировать страницу и узнать ее смысл. Если человек с утра до вечера читает про удочки, а сегодня зашел на памперсы, значит, что-то в его жизни произошло. Интегрирование этой информации дает долговременные интересы человека, дифференцирование – локальные всплески интереса. Если интерес долговременен – товары по нему можно будет показывать вечно, на протяжение практически всей жизни. Сейчас ПС хорошо справляются только с краткосрочными интересами, которые быстро исчерпываются. Важно при этом: его анонимность, потому что завязанность рекламы на соцдем странна – можно собрать девушек-студенток, у них будут какие-то общие интересы, но их будет крайне не много. Система на сейчас: база 48 млн, пресса всей России, промышленный уровень системы. Если эту систему присоединить к системе контекстной рекламы, это будет совершенно новый продукт. Вопрос из зала: слово порно будет самым популярным. Это и так общеизвестно. Зачем тогда система? Ответ: люди интересуются порно, но покупают магнитофоны.Это просто шум, который нужно фильтровать. Мы продиагностировали посты ЖЖ. Убрав половину спама, мы смогли проанализировать смысл оставшегося контента. Кирилл Готовцев: по сленгу мы смогли расчленить молодежную аудиторию и выделить отдельные группы , мы узнали, что есть скинхеды, готы, что скинхедов четыре вида, и у каждого есть свои интересы, на основе которых им что-то можно продавать.
1389 Прочтений • [Дмитрий Завалишин (Digital Zone) - От семантики к смысловому анализу. Перспективы развития поисковых систем контекста] [20.04.2012] [Комментариев: 0]