Link Popularity для чайников (и все такое ;-)). Часть 1
Эта статья объясняет значение термина Link Popularity (особенно использование Link Popularity в Google) в той степени, в которой это используется при ранжировании сайтов в поисковиках. Объяснение потребует некоторых математичеких вычислений, но вам совсем не обязательно обладать глубокими математическими знаниями, чтобы понять это - алгебры средней школы будет достаточно. Здесь вы не найдете описания специальных методов для улучшения ваших позиций в поисковиках, но прочтение этой статьи поможет вам выбрать наиболее продуктивные направления на пути к этому. С тех пор как Yahoo! заменил Inktomi, в качестве своего поискового сервера, на Google с их “ориентированным на ссылки” алгоритмом ранжирования, Интернет просто загудел о важности “Link Popularity”. Теперь решающим фактором, которому необходимо уделять внимание, стало наличие ссылок на ваш сайт. Мы читаем, снова и снова, высказывания типа: “Чтобы поместить ваш сайт на верхние позиции поисковиков, важно, чтобы множество других сайтов имело ссылку на ваш “. Далее, нам говорят, что не все ссылки одинаково полезны и некоторые из них являются более важными, чем другие. Например, ссылки с сайтов расположенных на доменах .gov и .edu имеют большее значение, чем ссылки с домашней странички вашей кузины Салли, что FFA - сайты не имеют вообще никакого значения (или, наоборот, что они сильно помогают) и т.д. Вся эта информация идет из источников различной степени доверия, но почти все они предлагают “особый” продукт или сервис , извлекающий выгоду из этой информации. Странным выглядит отсутствие популярного объяснения того, как алгоритмы ранжирования используют анализ ссылки в своих вычислениях, то есть объяснения, которое бы обеспечило некий информационный базис, позволяющий нам судить о достоверности таких предложений. Это выглядит странным, ведь среди всего многообразия особенностей алгоритмов ранжирования поисковиков, link popularity быть может является самым простым для понимания. Не потому, что это наименее сложно, а из-за того, что это все было полностью описано разработчиками. Описания специфических применений данной техники широко распространены в научных кругах, эти данные опубликованы и общедоступны в Интернете. Основы этой статьи взяты как раз из одной из таких публикаций. Оценка важности ссылок. Перед тем, как углубиться в детали, давайте рассмотрим некоторые основные положения. На самом деле, корректнее было бы использовать термин “Link Topology” (топология), вместо “Link Popularity” (популярность), так как данная методика учитывает взаимосвязь ссылок между собой наряду с их количеством. Как бы то ни было, в результате анализа измеряется “важность” страницы. Это не то же самое, что “релевантность”. В то время как “релевантность” показывает насколько содержимое вашей страницы соответствует определенному запросу, “важность” указывает на “ценность” страницы, не обращая внимание на ее содержание. Любая ссылка на страницу утверждает, что эта страница представляет некую ценность и таким образом повышает ее рейтинг. И чем больше значение этого рейтинга, тем более “важной” считается страница. Но не все ссылки на страницу делают одинаковый вклад в величину данного рейтинга. Некоторые из ссылающихся страниц, сами по себе являются более “важными” чем другие, и, соответственно, ссылка с них имеет большее значение. Итак: “Важная страница - это та, на которую ссылаются важные страницы” Получается замкнутый круг ? Точно, но это легко понять интуитивно. Например, ссылка на ваш сайт с сайта Государственного Института Стандартов и Технологий должна иметь большее значение, чем ссылка с домашней странички вашей кузины Салли. Не потому, что она неравнодушна к вам :-), а потому что ГИСТ более важен, что подсознательно мы все-таки прекрасно осознаем. Как вычисляется “Важность” ? Хотя просто это понять на примере двух или трех страниц, измерение относительной важности миллиардов связанных страниц кажется безнадежно запутанным. И это действительно запутанно, но не безнадежно - все достаточно просто. Это требует множества вычислений, но к счастью нам не надо ничего изобретать. Мы можем просто взять их из научной литературы. Будучи аспирантами Стэнфорда Larry Page и Sergey Brin (основатели компании Google и разработчики ее поисковой машины ) опубликовали “Анатомию Крупномасштабной Гипертекстовой Поисковой Машины”, которую вы можете скачать отсюда в формате PDF. Их труд описывает PageRank - методику определения важности страницы в Google на основе страниц, ссылающихся на нее. Это и есть тот метод, который будет подробно описан в этой статье. Итак, формула PageRank. Она достаточно сложна на вид, но на самом деле не все так страшно :-). Нам понадобится немного времени, терпения и алгебра курса средней школы. Предположим существование вэб-страницы A, на которую ссылаются другие страницы. Назовем ихT1, T2, T3, и так далее до Tn. Пока - никакой математики, сейчас мы только придумаем имена для того, о чем будем говорить. Представьте, что A - это ваша домашняя страничка, а T1,..Tn - другие вэб-страницы, которые содержат гипертекстовые ссылки на вашу. T2, например, может быть домашней страничкой вашей кузины Салли, если вам это поможет лучше понять :-). PageRank страницы A вычисляется по следующей формуле: PR(A) = (1-d)+d [PR(T1)/C(T1)+PR(T2)/C(T2)+PR(T3)/C(T3)+…+PR(Tn)/C(Tn)] Это действительно выглядит отвратительно :-). Но если мы разобьем эту формулу на три части, она станет намного проще. PR (A) означает PageRank страницы A; то есть, именно то, что мы хотим найти. Это выражние только определяет проблему - все вычисления будут с другой стороны знака =. ( 1-d) + d - коэффициент затухания. Не обращайте внимания на него. Page и Brin рекомендуют устанавливать его равным 0.85, так что мы установим его именно таким и забудем про него. Хотя, вероятно, и он имеет какое-то значение,если вы создаете поисковый сервер, но для наших целей он не нужен. Мы просто собираемся вычислить выражение в квадратных скобках, умножить его на 0.85 и добавить к результату 0.15, как это сказано в формуле. Теперь обратимся к выражению в скобках, перепишем его в таком виде: [ PR(T1)/C(T1)+ PR(T2)/C(T2)+ PR(T3)/C(T3)+…+ PR(Tn)/C(Tn)] Легко увидеть, что T1, T2, и T3 и есть те страницы, которые ссылаются на A, и (я надеюсь) легко понять какие простые вычисления производятся с ними. Очевидная сложность заключается лишь в количестве вычислений. PR - означает PageRank страниц T1, T2,…Tn Единственным новшеством, появившемся в этой формуле является С - количество гипертекстовых ссылок на данной странице. Говоря иначе, С(T2) - это общее количество исходящих ссылок (out-links) на странице T2, то есть ссылок вида http://www.adventive.com Для страницы на которую ссылается эта ссылка, она будет являться входящей (in-link). Складывая воедино эти три компонента, на которые мы ранее разбили формулу, мы можем определить последовательность действий по применению этой формулы к любой странице: Составьте список всех страниц, которые ссылаются на данную страницу (в дальнейшем, будем называть его просто “список ссылок”); Для каждой страницы из списка ссылок: Определите PageRank; Посчитайте количество out-links; Разделите PageRank каждой страницы на количество out-links на ней; Суммируйте результаты шага 2 для всего списка ссылок; примените коэффициент затухания к итоговой сумме. Продолжение следует… Оригинал статьи Автор статьи: Стив Класон Вольный перевод: Topper
415 Прочтений • [Link Popularity для чайников (и все такое ;-)). Часть 1] [20.04.2012] [Комментариев: 0]