Данная статья представляет собой попытку обобщить данные полученные из форумов и информацию от самих поисковых систем и каталогов. В последнее время в крупных международных поисковых системах наблюдается изменение основных критериев поиска документов. Заметна тенденция объединения поисковых систем между собой. Теперь не достаточно иметь хороший, релевантный документ, чтобы быть в первых строках. Необходимо также работать над его продвижением во всех крупных поисковых системах. Нельзя просто создавать доорвеи (doorway, gateway pages) для каждой поисковой системы, надо присутствовать во всех поисковых базах. Такую тенденцию объединения поисковых систем можно объяснить несколькими фактами. Одним из них является появление в интернете большого количества ресурсов, предлагающих мета-поисковые технологии, отбирающих часть пользователей у “классических” поисковых систем. В мета-поисковой технологии в качестве критериев релевантности документа используются его позиции (по одному и тому же поисковому словосочетанию) в известных поисковых системах. Преимущества такого подхода очевидны - нет необходимости собирать и обрабатывать огромную базу данных, не требуется разрабатывать сложные поисковые алгоритмы и бороться со спаммерами - все это делают крупные поисковые системы, это их головная боль. Требуется только написать достаточно простую программу, посылающую вводимые данные на несколько известных поисковых систем и обрабатывающую ответы от них. При этом качество поиска получается высоким, т.к. при таком подходе случайные результаты исключаются (хотя пропадает и часть качественных результатов). Видимо, “Классические” поисковые системы, видимо, тоже начали использовать эту технологию, но в измененном виде - оценка популярности ресурса по количеству и качеству ссылок на него, при этом ссылками являются и результаты поиска в других поисковых системах. Пример: AltaVista не так давно начала учитывать количество ссылок на каждый ресурс подходящий по словосочетанию. При этом ссылки искались в той же базе данных, что и сами ресурсы (т.е. в собственной базе AV), а также в известных каталогах ссылок таких как Yahoo!, Looksmart. Ссылки с обычных страниц было принято считать ссылками низкого качества, ссылки с известных каталогов - ссылками высокого качества. Разделение на ссылки высокого и низкого качества (по слухам, оно организованно в виде баллов от 1 для ссылки с обычной страницы и до 200 для ссылки с Yahoo!) сделано для защиты от “накручивания” этого параметра ссылками со множества сайтов, сделанных только ради ссылки на основной сайт. В настоящее время AltaVista использует также результаты работы других поисковых систем - она посылает введенное поисковое слово или словосочетание на Google и результаты Google использует как ссылки высокого качества (из того же непроверенного источника - до 1000 баллов за первое место в результатах Google). Описание взаимодействия между крупными поисковыми системами. 1. AltaVista является одним из самых популярных международных поисковых сервисов. Изначально AltaVista была просто поисковой системой с собственным пауком (scooter), автоматически собирающим информацию, обходя сайты по ссылкам. В настоящее время в нее включен еще и каталог ресурсов от Looksmart. Попадая на главную страницу AV, пользователь может провести поиск по базе поисковой системы (Web Page Search) или по базе каталога ресурсов (AltaVista Directory). Каталог ресурсов предоставляется AltaViste одним из крупнейших представителем этой отрасли - Looksmart. Базы, видимо, хранятся в разных местах и периодически синхронизируются. Прописаться в этом каталоге можно как со страницы на AV, так и со страницы на LookSmart, причем на одинаковых условиях (за деньги). Имеется информация, что на релевантность документа с точки зрения AV влияют следующие факторы: А) поля html-документа keywords, title, description, body text и т.д.; Б) популярность URL документа и / или его родительского сайта (имеется в виду количество ссылок на сам документ, например http://www.domain.ru/rus/index./html и количество ссылок на http://www.domain.ru), т.е. сколько ссылок есть на этот документ или сайт с других сайтов. Причем ссылки с разных сайтов имеют разный вес. По непроверенным данным, имеет место следующее соотношение: * первое место в результатах поиска по тому же поисковому запросу в Google 1000 баллов, последующие места имеют меньший вес; * ссылка с Yahoo (т.е. сайт присутствует в базе данных Yahoo!) 200 баллов; * ссылка с Open Directory Project 100 баллов; * ссылка с About.com, Go.com, Looksmart (т.е. из “собственного” каталога AltaVista) 25 баллов; * просто ссылка с любого другого сайта 1 балл. Вполне понятно, что самые дорогие ссылки с Google. Они одними из первых (если не первыми) начали использовать алгоритм поиска документов с сильной ставкой на популярность ссылок и добились высокой скорости поиска при объеме базы, сравнимой с AV. Остается загадкой, почему прямой конкурент, Yahoo! ценится больше чем “собственный” каталог ресурсов, предоставляемый LookSmart. Такая схема позволяет бороться со спаммерами и простым копированием html документов (теперь недостаточно скопировать документ #1 по словосочетанию ‘porno sex’ и заменив все ‘porno’ на ‘красные’, а ‘sex’ на ‘розы’, чтобы стать #1 в менее популярной области при поиске по словосочетанию ‘красные розы’); борьба с уничтоженными документами (база большая - необновляемые и мертвые документы искать сложно, а тут более новая база Google и еще модерируемые каталоги). 2. Google - сравнительно новая поисковая система, рассчитанная изначально на поиск документов с учетом их популярности на других ресурсах. Сейчас в Google включен каталог ресурсов, основанный на Open Directory Project. Т.е. при попадании в Open Directory Project, сайт попадает и в каталог ресурсов Google, но не сразу. Кроме того, в каталоге Google есть ресурсы, которых нет в ODP (возможно, что это из-за задержки в обновлении информации - т.е. эти сайты с ODP убрали, а на Google они еще остались). Google является поставщиком поисковых результатов для каталога ресурсов Yahoo! (ссылка при поиске Web Pages search). Если при поиске документ имеет выгодную позицию на Google, то при поиске на AltaVista по тому же поисковому запросу, его релевантность в AltaVista растет (см. п.1 AltaVista). Видимо, наиболее весомыми ссылками для Google являются ссылки с ODP и Yahoo! (а может быть и с AltaVista - партнерство все-таки). 3. Yahoo! - один из самых известных каталогов ресурсов. Добавляет ресурсы бесплатно (если соответствует разделу и правилам и когда дойдут руки у редакторов) или за 299$ (опять же, если соответствует разделу и правилам, но в течение 7 рабочих дней сайт будет просмотрен, но нет гарантии его включения в каталог). Добавление в Yahoo! дает большое преимущество на AltaVista и Google, логично предположить, что и на других системах тоже. В Yahoo! появился и web-search - результаты берутся из поисковой системы Google (при поиске по каталогу надо нажать Web Pages вверху или внизу страницы). 4. HotBot - известный поисковый сервис. Изначально был поисковой системой с пауком, сейчас располагает еще и каталогом ресурсов, а также сервисом релевантности по количеству заходов (от DirectHit). При стандартном поиске в HotBot (web-search) выдаются результаты сначала (первые 9) полученные от DirectHit по тому же поисковому запросу, затем (10-й на первой странице, и начиная с 11го по десять на следующих) поисковые результаты из базы Inktomi, обработанные с помощью собственного алгоритма поиска. Если по поисковому запросу (например, ‘large electronic sign’) в DirectHit не было найдено ни одного соответствия, то результаты начиная с первого берутся из базы Inktomi; правда в самом DirectHit из таких запросов, видимо, исключается самое непопулярное слово (ответ такой же как и ‘electronic sign’). 5. Open Directory Project - достаточно новый каталог ресурсов. Основан на редакторах-добровольцах. Образован тремя компаниями- Lycos, Mozilla.org и HotBot. Поставляет свою базу данных (не результаты) другим поисковым сервисам - HotBot, Lycos, AOL, Google, AskJeeves (см.также DirectHit и AskJeeves). Присутствие ссылки на сайт увеличивает релевантность на AltaVista. 6. DirectHit - поисковая система, алгоритм которой основан на учете количества нажатий на ссылку ресурса с его описанием. Т.е. по некоторым критериям находятся документы, и человек, нажимая на ссылку в списке результатов поиска, переходит на сайт, одновременно “голосуя” за него. Т.е. реально оценивается не популярность документа, а правильность его названия и описания. Это видимо дает некоторый отсев спаммеров. Поясним на примере. Человек посылает поисковый запрос поисковой системе, она в ответ выдает список результатов. Предположим, что на первой странице есть обычные результаты поиска (есть нормальное название и описание, внушающее доверие) и спам (в названии и описании часто используются ключевые слова в ущерб информативности этих полей). Естественно, человек скорее всего нажмет на “правильную” ссылку. Если большинство людей делает также, то с течением времени “неправильная” ссылка опускается все ниже и ниже и уходит из поля зрения. Результаты поиска DirectHit используются достаточно часто другими поисковыми сервисами. Так, HotBot показывает в своих результатах сначала первые 9 самых популярных (по тому же поисковому запросу, с точки зрения DirectHit) сайтов, в MSN стоит ссылка “Top 10 Most Popular Popular Sites for строка запроса”, в Lycos первые 4 результата на первой странице “4 Web Sites selected based on user selection traffic”. 7. AskJeeves Оригинальный поисковый сервис, предназначенный для поиска по прямым вопросам пользователей. Если тема популярна, то предлагает выбрать наиболее конкретный вопрос из списка. Видимо, список отслеживается в сотрудничестве с DirectHit. Первая страница обычно совпадает с результатами поиска на DirecHit по тому же поисковому запросу. Есть непроверенная информация, что используются данные с Looksmart и Google для поиска документов. 8. Looksmart один из наибольших каталогов ресурсов в Интернете. Ценен тем, что предоставляет свой каталог для таких систем как AV, MSN, Excite, iWon, CNN, WebCrawler, TimeWarner, Netscape NetCenter, Sony, US West, NetZero и др. AltaVista и CNN используют напрямую результаты поиска, остальные только базу каталога со своими алгоритмами. Для того, чтобы зарегистрировать сайт в Looksmart необходимо оплатить просмотр сайта редактором каталога. За просмотр в течение 8 недель - 149$, в течение 2 деловых дней (business days) - 299$. Бесплатно ресурсы больше не регистрируются (больше двух лет). 9. AOL (America On Line) поисковый сервис. Его главное преимущество - это то, что он находится на очень популярном сервере AOL, у которого достаточно много клиентов. Выдает результаты поиска, исходя из базы ODP, но сортируя их своим алгоритмом. После результатов из базы ODP выдает результаты поиска по базе Inktomi, тоже обработанные своим алгоритмом. 10. MSN (Microsoft Network) поисковый сервис также наиболее ценный тем, что находится на популярном ресурсе - в данном случае на сайте Microsoft. Идеология такая же как и на AOL Search - сначала выдаются результаты из базы ODP, затем из базы Inktomi, алгоритмы в обоих случаях свои. 11. Inktomi - не имеет собственного поискового сервиса, но занимается индексацией ресурсов интернета для предоставления базы другим компаниям. Базу Inktomi используют: AOL, MSN, HotBot, iWon, Canada, Nbci (Snap), GoTo, Anzwers. Этот обзор не является полным и законченным, возможны, например, обратные взаимодействия рассмотренных систем - подтвердить или опровергнуть это пока не удалось. Для наглядности необходимо составить схему взаимодействия крупнейших международных поисковых систем - (см. приложенную схему). Вывод о практическом применении. Таким образом, анализируя все вышесказанное по схеме взаимодействия международных поисковых систем, можно определить основные стратегические поисковые базы, появление в которых сильно увеличивает вероятность высоких позиций в большинстве больших международных поисковых систем (на схеме обведены красным). Обозначения: Такими “стратегическими центрами” являются: * Каталог Looksmart (каталоги Looksmart, AltaVista, Microsoft Search Network, Excite, iWon, WebCrawler, TimeWarner, CNN, Netscape NetCenter, Sony, US West, NetZero, улучшение в поиске AltaVista); * База Inktomi (база данных для поиска в HotBot, AOL, MSN, iWon, Canada, Nbci(Snap), GoTo, Anzwers,) * Каталог Open Directory Project (каталоги HotBot, Google, AOL, AskJeeves, улучшение в поиске AltaVista); * Каталог Yahoo! (улучшение в поиске AltaVista, других данных нет, но это самый популярный каталог ресурсов интернет (не считая всех партнеров Looksmart как один каталог)). Для “захвата” этих “стратегических центров” требуется * каталог Looksmart - подходящий тематике раздела контент, доступность сайта, англоязычность, “предназначенность для американской аудитории”, не очень мало страниц, быстро грузится, а также 149$ (редактор просмотрит сайт за 8 недель) или 299$ (за два дня), все оплаты по кредитной карте; * База Inktomi - не спамминговать (не импользовать запрещенные приемы для повышения релевантности), бесплатно; * Каталог Open Directory Project (Dmoz) соответствие категории, аглоязычность (или в отдельную категорию), бесплатно; * Каталог Yahoo! соответствие категории, англоязычность (или в отдельную категорию), просмотр сайта в течение 7 дней - 299$ (перед этим надо стать зарегистрированным членом клуба Yahoo!). Данная статья не претендует на абсолютную истинность, но надеюсь, сможет помочь кому-нибудь в выборе стратегии захвата ключевых позиций в наиболее значимых поисковых системах. С удовольствием выслушаю вашу критику и замечания. Мой адрес dsu@nm.ru Дмитрий.
402 Прочтений • [Коалиции крупных международных поисковых систем] [20.04.2012] [Комментариев: 0]