Поиск сайтов по ключевым словам был лишь началом, и уже сейчас деятельность поисковиков этим не ограничивается - они оцифровывают книги, хранят географические базы данных и собирают энциклопедические факты.
Автор: Тихонов Кирилл
| Раздел: Статьи |
Дата: 22 апреля 2009 года
Со временем задача поисковых систем изменится. Поиск сайтов по ключевым словам был лишь началом, и уже сейчас деятельность поисковиков не ограничивается лишь этим. Они оцифровывают книги, хранят географические базы данных и собирают энциклопедические факты, а со временем будут использовать всю доступную им информацию, чтобы дать пользователю наилучший ответ - и далеко не всегда в форме ссылки.
Такого мнения придерживаются директор Google по исследованиям Питер Норвиг и глава Yahoo Research Прабхакар Рагаван. Совместно выступая на прошлогодней конференции DemoFall08, они сошлись во мнении, что веб-поиск следует рассматривать лишь как один из множества способов достижения цели, интересующей пользователя.
"Что нужно для того, чтобы распознать намерение пользователя и синтезировать последовательность действий, которая удовлетворит его? Предположим, вы планируете отпуск, - развивает мысль Прабхакар Рагаван. - Система должна сказать: я рекомендую такую-то поездку, исходя из доступных средств, а также того факта, что у вас двое детей и нет особого желания посещать музеи. Вот будущее, к которому мы должны стремиться".
Чтобы эта фантастическая картина стала реальностью, поисковым системам придется пережить существенные изменения. Современные поисковики, конечно, индексируют сайты с информацией о турпоездках, но для них эта информация - лишь текст с непонятным смыслом. Вдобавок далеко не все необходимые данные доступны в Интернете. С задачей справилась бы специализированная система для подбора туров, но это плохое решение проблемы, потому что подобных задач тысячи, если не миллионы. Не изобретать же для каждой из них отдельный поисковик.
Чтобы перейти от поиска ссылок к поиску ответов, поисковым системам нужна качественная информация. Согласно исследованию, опубликованному университетом Калифорнии в Беркли, традиционные поисковые системы индексируют лишь 0,2% содержащейся в Интернете информации. Остальное хранится во всевозможных базах данных, из которых трудно или невозможно что-то извлечь с помощью стандартных поисковых роботов.
Данные, остающиеся для поисковиков невидимыми, называют глубинным вебом. Проблема в том, что об этих "глубинах" почти ничего не известно. Даже если принять на веру их якобы чудовищную величину, остается вопрос: что за информация там скрывается? Где-то там, вероятно, находятся закрытые научные и медицинские библиотеки, каталоги магазинов, финансовые данные, транспортные расписания и многое другое. Но вполне возможно, что значительная их доля никому не нужна или дублирует сведения, которые имеются в других, более легкодоступных местах.
Правда, информация, хранящаяся в базах данных, имеет одно важное преимущество. В отличие от веба, она имеет понятную для компьютера структуру. Чтобы автоматически найти в тексте сайта турагентства подходящую по цене и срокам путевку, необходим искусственный интеллект. Чтобы извлечь ту же самую информацию из базы данных турагентства, порой достаточно знания SQL.
Создатели Deepdyve гордятся тем, что их поисковая система одна из лучших в своей нише
Поток компаний, рассчитывающих нащупать в глубинном вебе золотую жилу, не ослабевает с конца девяностых. Вот свежий пример: компания DeepDyve, шумно объявившая о себе в конце 2008 года. Недавнее известие о том, что основатель Apple Стив Возняк стал её советником, вызвало новую волну интереса к стартапу, занимающемуся "глубинным поиском".
DeepDyve основан парой исследователей, прежде работавших над проектом "Геном человека". Обычный поиск их не удовлетворяет, поскольку с его помощью проще всего найти популярную информацию, а популярность, как они считают, редко означает качество. DeepDyve не индексирует что попало - все источники отбираются вручную. В его индексе содержатся лишь медицинские базы данных, патентная информация, энциклопедии и научные журналы, в том числе и те, которые доступны лишь по подписке.
На одной из презентаций исполнительный директор DeepDyve Уильям Парк рассказал о случае, происшедшем с его старым знакомым. У этого человека обнаружили заболевание, название которого ни о чем ему не говорило. Все попытки отыскать толковую информацию в Google ни к чему не привели: поисковик выдавал ссылки на краткие справки и любительские описания. DeepDyve - совсем другое дело. Первая же ссылка, которую вернул этот специализированный поисковик, вела к подробнейшей научной статье о злополучном заболевании.
В Google тоже экспериментируют в области "глубокого поиска". В компании разработали специализированного поискового робота, который пытается проиндексировать сайты, разрешающие рыться в своих базах данных. Робот осторожно тестирует поисковую форму, "скармливая" ей разнообразные запросы и анализируя выдачу. Постепенно он вырабатывает модель, описывающую данные, которые могут содержаться в базе данных сайта. Ну а когда модель готова, проиндексировать базу - уже дело техники.
Концепция семантического веба в той форме, которую пропагандирует Тим Бернерс-Ли, по большому счёту, служит для решения всё той же задачи: размещения в Интернете данных, понятных не только людям, но и компьютерам. На февральской конференции TED Бернерс-Ли рассказывал об очередной вариации на ту же тему - так называемых связанных данных (linked data), перспективном способе публикации машиночитаемой информации.
Семантический веб частенько критикуют за идеализм и нереалистичность. "Мир исчерпывающих, надежных метаданных - утопия", - пишет Кори Доктороу в статье "Метачушь", самом, пожалуй, исчерпывающем изложении недостатков этой концепции. Она целиком и полностью зависит от метаданных, которые создают люди, и в этом её главная уязвимость. Люди часто врут, они не способны договориться друг с другом и совершают глупейшие ошибки. Ждать от них качественных метаданных нет смысла, а значит, и семантического веба не построить.
Однако утопичность семантического веба не убавляет полезности его отдельных элементов. Linked data уже используется для создания на основе Википедии гигантского хранилища машиночитаемых фактов DBpedia. Если такой формат поддержат другие онлайновые базы данных (почему бы и нет - это не так уж сильно отличается от поддержки RSS, которая теперь встречается на каждом шагу), это может заметно повлиять на будущее поиска.
Сейчас поисковики, как правило, обходятся примитивным поиском по текстам в Интернете. Если им станут доступны структурированные данные, поиска по текстам будет мало. Потребуется умение оперировать фактами. Интеллектуальность - это другое свойство, которым часто кичатся поисковые стартапы.
Практически единственное, для чего годится сервис, запущенный компанией Powerset, - это интеллектуальный поиск по набору фактов, извлеченных из Википедии, тому самому, который хранится в общедоступной DBPedia. Интеллектуальность Powerset заключается в том, что запрос воспринимается не как набор ключевых слов; программа в самом деле пытается понять, что именно нужно пользователю. Когда Powerset открылся, его почти всерьез называли "убийцей Google", а в июле прошлого года Microsoft приобрела компанию за 100 млн. долларов. Теперь, судя по всему, технологию Powerset встроят в майкрософтовский Live Search: скриншоты бета-версии нового поисковика с кодовым названием Kumo в марте всплыли в Интернете.
Стивен Вольфрам
Еще амбициознее проект Wolfram Alpha, который разрабатывает компания Wolfram Research. Автор проекта - знаменитый бизнесмен и математик Стивен Вольфрам. Известность ему принесла система компьютерной алгебры Mathematica, которую повсеместно используют ученые и инженеры. Кроме того, несколько лет назад он издал книгу под названием "Наука нового рода", в которой утверждалось, что вселенная имеет цифровую природу и основана на клеточных автоматах. Эксцентричное сочинение слегка подпортило репутацию Вольфрама, так что в анонс Alpha поверили не все, тем более что реальный продукт пока видели лишь избранные (открытие проекта для широкой публики ожидается к маю).
Wolfram Alpha откроется в мае
Очевидцы описывают Wolfram Alpha как систему, предназначенную не столько для поиска информации, сколько для "вычисления" и выдачи готовых ответов на основе специально подготовленных и отобранных баз данных. Утверждается, что в Alpha внесены огромные массивы сведений о физических законах, разнообразных объектах, технике, географии, погоде, экономике, людях и многом другом. Программа способна улавливать связи между различными фактами и при необходимости использовать их.
Известный исследователь в области искусственного интеллекта Дуг Ленат признаётся, что Wolfram Alpha произвела на него благоприятное впечатление. Система действительно работает, хотя и представляет собой не совсем то, что можно вообразить из расплывчатых описаний, гуляющих по Интернету. Это не искусственный интеллект, а, скорее, интеллектуальная система для изучения заложенной в неё информации.
"Если ввести запрос наподобие "ВВП Франция /Германия", - описывает Ленат свой опыт работы с Alpha, - она вычислит и выдаст график отношения внутренних валовых продуктов Франции и Германии за последние тридцать лет или около того. Если написать просто "ВВП", то она определяет IP-адрес и показывает (в моем случае) ВВП США плюс различную информацию о том, что такое внутренний валовой продукт, причем с точки зрения формул, а не семантики".
Хотя программа умеет находить ответы, она не всесильна и не разумна. Далеко не на каждый вопрос у неё готов ответ, но даже альфа-версия, по словам Лената, неплохо справляется с огромным разнообразием численных и научных запросов.
Конечно, продукты в духе Wolfram Alpha не заменят поисковых систем. Скорее уж наоборот, поисковые системы позаимствуют у них способность манипулировать данными. Зачатки этого умения уже сейчас демонстрируют Google или Яндекс. Попробуйте спросить у Яндекса, который час или какая погода в Сочи. Он не отправит вас на другой сайт - на такие вопросы поисковик ответит сам.
Homo Technologis
Мобильный поиск. Им будет легко пользоваться не только сидя за компьютером, но и в автомобиле, с мобильного телефона или даже с помощью гаджетов, которых ещё не существует. Скажем, кто откажется от специального устройства, которое непрерывно ищет информацию, используя в качестве запросов случайно услышанные слова или увиденные вывески и предметы?
Нетекстовые запросы. Мобильные устройства редко дружат с текстом - маленькие клавиатуры неудобны. Но поисковые системы и не должны ограничиваться текстом. Им не помешало бы научиться распознавать голосовые и звуковые запросы (что это за песня там играет?) или запросы-изображения (что пишут в Интернете про книжку с вот такой обложкой?). Отчасти это уже работает (например, в Google Mobile для iPhone), но пока не так, как хотелось бы.
Дизайн. Люди привыкли, что на странице результатов поиска их ждет десять ссылок и, возможно, контекстная реклама. Но кто сказал, что это идеальный интерфейс, что нет более удачных вариантов? Результаты могут быть более интерактивными. Они могут более явно отражать относительную важность результатов. А может, стоит добавить побольше картинок и видео?
Контекст. Поисковик немало знает о своих пользователях и должен использовать эту информацию им на благо. По IP-адресу легко определить, откуда отправлен запрос (а если запрос отправлен с мобильного телефона, то его координаты нетрудно установить едва ли не с точностью до нескольких метров). Результаты поиска, связанные с местом, где находится пользователь, несомненно, более релевантны.
Язык. Наилучший ответ вовсе необязательно содержится на странице, написанной на родном языке пользователя. Иногда единственный результат оказывается на, скажем, португальской или китайской странице. Если искать строго по заданным ключевым словам, пользователь останется в проигрыше. Лучше попробовать перевести запрос автоматически и подмешать найденное к обычным результатам.
Из еженедельника "Компьютерра" № 15 (779)
551 Прочтений • [Ответы на вопросы] [24.04.2012] [Комментариев: 0]