Link Popularity для чайников (и все такое ;-)). Часть 2
Вычисление. Всего четыре шага. Это достаточно просто, но откуда начинать считать? Чтобы определить PageRank, как говорилось выше, мы должны знать PageRank всех страниц из списка ссылок, что мы и попытаемся сейчас выяснить. Результат в формуле PageRank достигается путем повторения вычислений, до тех пор пока не получится устойчивый результат. Это означает, что мы можем начинать считать откуда угодно и все равно придем к нужному результату. Чтобы продемонстрировать, как это работает, я создал небольшую паутину из 10 вэб-страниц, и мы будем вычислять PageRank для того, чтобы упорядочить эти страницы согласно их “важности”. Нажмите здесь, чтобы помотреть Диаграмму. Круги на ней обозначают вэб-страницы, линии между ними - гиперссылки, а стрелки показывают направление ссылок ( как все запутано, а? :-)). Но все быстро проясняется как только мы начинаем вычисления. При последовательном продвижении по нашему плану, сначала создаем список ссылок. Итак А: А содержит 6 in-ссылок, со страниц B, E, G, H, I, и J. Затем мы находим PageRank для каждой из страниц этого списка. Так как на данный момент мы не знаем PageRank этих страниц, мы произвольно назначим каждой странице PageRank = 1 для первой итерации алгоритма. Затем мы рассчитываем количество исходящих ссылок для каждой страницы листа и делим PageRank на результат вычислений. При использовании списка списка ссылок для A, мы получаем следующую таблицу: Страница PageRank # out-links PR/out-links B 1 6 0.1667 E 1 4 0.2500 G 1 3 0.3333 H 1 2 0.5000 I 1 4 0.2500 J 1 3 0.3333 Итого: 1.8333 На последнем шаге, мы применяем коэффициент затухания: 1.8333 * 0.85+(1-0.85)= 1.7083. После первой итерации, PR (A) = 1.7083 Повторяя данные действия для каждой из десяти страниц нашей сети, получаем следующие результаты, перечисленные ниже в порядке ранга страниц. (Вы можете проверить мою работу, создавая таблицу для каждой из других 9 страниц точно так же как таблицу, которую я делал для A, если у вас есть основания не доверять мне :-) ) PR(A)= 1.7083 PR(J)= 1.4250 PR(G)= 1.2833 PR(H)= 1.0708 PR(C)= 0.8583 PR(D)= 0.8583 PR(F)= 0.7875 PR(I)= 0.7167 PR(E)= 0.5042 PR(B)= 0.3625 Итак, рассмотрим этот список, он уже имеет некий смысл. А содержит наибольшее количество in-links и стоит первой в списке, как страница имеющая наибольшее значение, а B - наименьшее и соответсвенно стоит в списке последней, как наименее важная из всех. Но второе место страницы J кажется не совсем правильным, так как G имеет больше входящих ссылок (4 против 3). Так что, давайте-ка еще раз проведем все вычисления. Вторая Итерация Мы используем ту же самую последовательность шагов, но на этот раз, вместо использования произвольной 1 для значения PageRank каждой страницы,будем использовать значения из вышеупомянутой таблицы, то есть результаты первой итерации. Так, после вычислении списка ссылок для А во второй итерации, получаем следующую таблицу: Страница PageRank out-links PR/out-links B 0.3625 6 0.0604 E 0.5042 4 0.1261 G 1.2833 3 0.4278 H 1.0708 2 0.5354 I 0.7167 4 0.1792 J 1.4250 3 0.4750 Итого 1.8039 После применения коэффициента затухания получаем PR (A) = 1.6833 после второй итерации. Посмотрите, что получилось в результате наших повторных вычислений. Возьмем в качестве примера B: обратите внимание, что вместо значения PR/out-links = 0.1667, на этот раз B добавляет к итоговому значению PageRank страницы А всего лишь 0.0604. Иными словами, после первого шага вычислений, важность B уменьшилась по сравнению с произвольным начальным значением 1, и теперь страница B добавляет к итоговому результату PageRank для A меньшую величину. Как только мы перестаем каждой странице по умолчанию присваивать PageRank=1, каждая из них начинает способствовать повышению результата исходя из собственной “важности”. Я не буду приводить подробные вычисления для других страниц (вам придется поверить мне на слово, что я не ошибся :-)); приведу лишь итоговые результаты, полученные после второй итерации алгоритма: PR(A)= 1.6833 PR(G)= 1.5442 PR(J)= 1.4870 PR(H)= 1.3335 PR(F)= 1.0502 PR(C)= 0.7731 PR(D)= 0.7173 PR(I)= 0.5361 PR(E)= 0.3537 PR(B)= 0.2572 Как вы видите, список немного изменился. G и J поменялись местами, интуитивно кажется что это правильно, по причине упомянутой выше. F поднялась с 7-ой на 5-ую позицию, соответственно опустив в списке C и D. Давайте посмотрим почему. Посмотрите еще раз на структуру диаграммы. C, D, и F все имеют 3 in-links, но обратите внимание, что одна из входящих ссылок для F идет от A, в то время как A не ссылается ни на C, ни на D. А является наиболее важной ( высоко ранжированной) страницей в этой области и ссылка с нее имеет больший вес, чем ссылка с какой-либо другой страницы, так что F получает большее увеличение PageRank, чем C и D. Давайте теперь посмотрим, изменится ли что-либо в нашем списке при третьей итерации. Третья Итерация Я не буду подробно расписывать вычисления и приведу только результаты. PageRank страниц после 3-ей итерации выглядит следующим образом: PR(A)= 1.8020 PR(G)= 1.6515 PR(H)= 1.4019 PR(F)= 0.9920 PR(J)= 0.9496 PR(C)= 0.7774 PR(D)= 0.7389 PR(I)= 0.6328 PR(E)= 0.3004 PR(B)= 0.2260 Только одно изменение: J опустилась с 3-ей позиции на к 5-ую, подняв H и F. Почему? Обратите внимание, что H и F имеют ссылки с A, в то время как J их не имеет. Еще раз повторю, что наличие ссылки от важной страницы увеличивает важность. Сравните F и H, обе они имеют 3 in-links. Ссылки на F идут с A, B, и C, в то время как на H - от A, C, и F. Это единственное различие - разность между весом ссылки B (внизу списка) и F ( около вершины) и поднимает H в списке выше чем F. Хотя мы не приводим пример этого, но вы можете увидеть, как единственная ссылка от A повышает PageRank для страницы больше, чем три последние ссылки из списка вместе взятые. При большем количестве рассматриваемых страниц, разрыв в PageRank которых более велик, “качество” ссылки имеет большее значение чем в этом примере, где видно как различаются относительные ранки страниц с одинаковым количеством in-links . Четвертая Итерация: Мы закончили! После 4-ой итерации, значения PageRank немного изменились но порядок остался тем же: PR(A)= 1.7132 PR(G)= 1.5575 PR(H)= 1.4126 PR(F)= 1.0230 PR(J)= 0.9764 PR(C)= 0.8162 PR(D)= 0.7844 PR(I)= 0.6036 PR(E)= 0.3165 PR(B)= 0.2138 Порядок остается таким же и при проведении дальнейших итераций, и кажется стабилизировался, так что на этом можно остановиться. Этот последний список содержит то, что мы назовем - “официальные” значения PageRank нашей небольшой 10-страничной области. Полученные уроки Это просто, правда? На самом деле, конечно же все гораздо сложнее, но если вы поняли этот маленький пример, то сможете и понять как работает эта схема применительно ко всему Интернету. Вы конечно же не сможете учесть в расчетах все страницы сети, сложность взаимосвязей между миллиардом или около того страниц неохватываема человеческим разумом, тем не менее, мы можем понять и оценить то, как определяется “важность” каждой конкретной страницы. Более важным, для большинства из нас, так или иначе, является то, что теперь мы можем использовать наше понимание этого алгоритма, чтобы понимать смысл всех тех разговоров о Link Popularity, о которых говорилось в начале статьи. Давайте начнем с фразы, которая открыла эту статью: “Чтобы поместить ваш сайт на верхние позиции поисковиков, важно, чтобы множество других сайтов имело ссылку на ваш “. Истинное утверждение, если можно так сказать. Вообще, чем больше существует in-links на ваш сайт, тем выше вы будете ранжированы в поисковых результатах. Но, как мы видели, вес ссылок различен, и одна “высококачественная” ссылка может легко перевешивать несколько менее качественных ссылок. Далее: “Качество ссылки имеет большее значение, чем количество ссылок. Вы добьетесь более высоких результатов в поисковиках, если ваша Link Popularity будет основываться на ссылках с сайтов, имеющих значительный трафик. ” А вот это утверждение не совсем верно. Трафик не имеет никакого отношения к link popularity. “Качество” сайта - это и есть, ни что иное, как PageRank. Все ссылки (любого “качества”) способствуют увеличению ранга вашего сайта, только “качественные” ссылки способствуют больше. Трафик не дает ничего. Или рассмотрим это высказывание: ” FFA (Free For All) сайты не увеличивают ранг вашего сайта.” В целом, правильно. Хотя все входящие ссылки улучшают вашу “важность”, FFA, чье большое количество out-links нивелирует любую важность, которую они могли бы иметь, будут способствовать очень немного. Также можно рассматривать и спам-сайты (сделанные только для увеличения PageRank других сайтов), поисковики могут просто не включить их в свою базу - ссылка с непроиндексируемого сайта ничего не дает. И наконец, об этом: ” Ссылки с .gov и .edu сайтов лучше чем ссылки с домашней странички вашей кузины.. ” Возможно. Сайты на доменах .gov или .edu сами по себе не имеют никаких дополнительных преимуществ, но все таки более вероятно, что эти сайты имеют больше ссылок на самих себя, чем сайт вашей кузины, и соответственно, имеют более высокий PageRank. Это единственное, что может сделать эти сайты лучше. Главный урок здесь, который можно извлечь из этой статьи следующий: Если Вы хотите занимать хорошие позиции в поисковиках, что является результатов высокого значения PageRank (или любого другого алгоритма link popularity, которые используют поисковики), обратите внимание на содержимое вашего сайта. Делая страницы c качественным содержимым и удобной навигацией, вы добъетесь того, что другие вэбмастера будут считать за честь для себя, поставить ссылку на ваш сайт, поднимая тем самым престиж своего сайта. И эти входящие ссылки на ваш сайт, особенно с сайтов, которые важны сами по себе, будут увеличивать важность вашей страницы. Оригинал статьи Автор статьи: Стив Класон Вольный перевод: Topper
723 Прочтений • [Link Popularity для чайников (и все такое ;-)). Часть 2] [20.04.2012] [Комментариев: 0]