РИФ+КИБ 2011: Станислав Ставский «Антифрод - есть ли шансы у накрутчиков поведенческих факторов»
21 апреля на конференции РИФ+КИБ 2011, в рамках 44-й секции, посвященной поисковой оптимизации, состоялся доклад Станислава Ставского, представителя биржи Sape
Антифрод - есть ли шансы у накрутчиков поведенческих факторов
Что такое «антифрод»? Это выражение пошло от английского слова «fraud», которое означает «мошенничество». Впервые этот термин был применен к платежным системам, где и появились фродовые пользователи, т.е. мошенники.
Когда, в конце 90-х годов, появилась баннерная реклама, у тех, кто ею занимался, появилось естественное желание накрутить показы или клики, соответственно баннерной системе приходилось с этим бороться. Таким образом, антифрод был известен еще тогда.
Когда появилась контекстная реклама, естественно народ почуял, что можно заработать легкую денежку, накликивая ее, и радостно этим занялся. По оценкам западных компаний, количество фродовых кликов в общем потоке составляет от 20 до 25%, и этот процент растет с каждым годом.
Антифрод в ранжировании. Некоторое время назад Яндекс заявил о том, что он учитывает поведенческие факторы в ранжировании результатов поиска. То есть, сделав такое заявление, мне кажется очевидным, что Яндекс понимал, что все оптимизаторы тутже бросятся накручивать поведенческие факторы, пытаясь повысить свои сайты в результатах поиска, и наверняка у Яндекса есть от этого хорошая защита. А мы с вами знаем, как Яндекс умеет защищаться.
Что такое поведенческие факторы? Об этом можно много чего прочитать в интернете, но с точки зрения поисковой системы, поведенческие факторы – это просто клики в логах, т.е. специальные файлы, в которых фиксируются действия пользователей, действия пользователей – это клики. Соответственно, можно сказать, что поведенческие факторы – это счастье пользователей, выраженное в кликах.
Как накручивают поведенческие факторы? В общем и целом накручивают неестественно. Почему? Понятно, что никто не будет накручивать запрос [как самостоятельно установить пластиковые окна], а вот просто [пластиковые окна] накручивать будут, потому что этот запрос коммерческий. Соответственно, все понимают, что накручивать стоит только коммерческие запросы. Если налицо перекос в пользовательских факторах для какого-то сайта по коммерческим запросам, это, с точки зрения поисковой системы, может считаться неестественным и приниматься к рассмотрению для дальнейшей обработки.
Также неестественность накруток выражается в том, что накрутка происходит только с одного источника. Допустим, есть поисковая система Google, оптимизатор хочет накрутить клики в выдаче по какому-то запросу, он это делает, а Google получает информацию о том, что у такого-то сайта повысился CTR. Известно, что Google поставляет свои результаты поиска некоторым крупным порталам, таким как AOL и Netscape, получается, что в AOLe и Netscape нет никакой активности, а в Google – есть. Соответственно – неестественно.
Какой дальнейшей обработке такие запросы или сайты могут подвергаться? Как известно, поисковая система использует большое количество факторов ранжирования. По заявлениям Google, у него двести факторов, по заявлениям Яндекса – несколько тысяч. Соответственно, поведенческих факторов из них, по моим предположениям, несколько десятков, а явно не один и не два, и не четыре. Поэтому, когда происходит накрутка темже самым, извините за выражение, юзератором, то накручивается только один из факторов – клики в выдаче, поднимается CTR, а другие факторы не трогаются. Делаем вывод о том, что накрутка только одного из факторов тоже выглядит неестественно для поисковой системы.
Следующее, что может выглядеть неестественно, это неподверженность естественным колебаниям трафика. Существуют естественные колебания трафика, например, в выходные наблюдается уменьшение трафика по коммерческим запросам в два, а то и более раз. Если, к примеру, кто-то зарядил денег в систему, которая начинается на Мега, а кончается на Индекс, то она будет накручивать равномерно, никакой просадки трафика по выходным дням не будет. Это тоже будет выглядеть неестественно. Как впрочем, и отсутствие колебаний трафика в течение суток, когда люди уходят на обеденный перерыв, вечером уходят домой и т.д. Понятно, что когда происходит накрутка, про это, конечно же, немножко забывают.
Таких неестественных вещей довольно много, я просто перечислил первое, что пришло мне в голову.
Как же работает антифрод? Понятно, что ищется любое неестественное поведение пользователей, какие-то аномалии и пики. Допустим, берутся лог-файлы с кликами или с логами расширения для браузера, а-ля Бар, и смотрится все, что связано с определенным сайтом, выискиваются аномалии, неправильное поведение и т.д. и т.п. Точно также ищутся группы пользователей, которые выделяются неправильным, аномальным поведением. И еще одной задачей антифрода является найти запросы, по которым производится накрутка.
Как это работает на уровень ниже. Поисковые системы обрабатывают огромное количество логов, логи с собственных серверов, с поиска, логи с почты и со сторонних сайтов, которые они собирают разными путями (Google Analytics или Google Bar). Количество этой информации огромно, лог-файлы занимают много места. Я тут произвел примерные расчеты, у меня получилось, что минимальный объем лог-файла составляет один терабайт в сутки:
Min = ~100М*~10= ~1млрд строк*~1000символов = ~1ТБ/сутки
Как же поисковые системы решают эту задачу по обработке такого большого количества информации? Очевидно, что происходит деление алгоритмов на быстрые и медленные. Для того чтобы хорошо побороться с накрутками, нужно смотреть на динамику в течение довольно длительного промежутка времени, т.е. агрегировать лог за месяц. Это, повторюсь, огромное количество информации, и это медленный алгоритм. На мой взгляд, одним из решений является ограничение полноты ради удешевления и скорости работы.
Что это значит? Это значит, что мы можем обработать только один лог, или только часть каких-то самых подозрительных пользователей по какой-то подозрительной тематике, по каким-то коммерческим запросам. Поисковые системы, только если у них есть какие-то подозрения, берут и внимательно просматривают именно этих пользователей, конкретно по этим запросам. При этом, как мы видим, полнота может уменьшаться, зато оперативно решаются какие-то срочные задачи.
Выводы: часть операций выполняется быстро, часть операций выполняется медленно. Из этого следует, что простая накрутка отсекается сразу - это очевидно. Хитрая же накрутка отсекается через некоторое время, когда Яндекс поисковая система обрабатывает большее количество информации. Следовательно, возможно временное улучшение позиций при накрутке. Можно оказать какое-то влияние на результаты поисковой выдачи (сам я этого делать не пробовал, могу только предполагать), но все равно через некоторое время все эти накрутки будут нивелированы антифродом.
Ну и под конец рассмотрим несколько примеров:
Пример 1. Секретарша с поисковым баром (при желании масштабируется до 10 секретарш) – бесполезно, так как все они входят с одного айпишника, и поэтому отсекаются сразу же.
Пример 2. Система «скачай экзешник, который эмулирует explorer». Чем отличается этот экзешник, эмулирующий explorer? Он отличается отсутствием плагинов, баров и т.д. Допустим, кто-то накручивает CTR себе по какому-то запросу, а поисковая система может легко и просто посмотреть CTR пользователей с баром и CTR пользователей без бара. – Вот юзераторы и палятся сразу же.
Пример 3. Так называемая накрутка «за сотым километром». Допустим, с помощью вашей системы кто-то хочет подняться со 101-го места в топ-10, что происходит? У сотого места CTR околонулевой, у 102-го тоже стремится к нулю, а у 101-го вдруг CTR стал огромный, - все это, конечно же, неестественно, и тут же поисковой машиной палится. Опять же, сужается пласт запросов, которые можно поднять с помощью примитивной накрутки. И совершенно точно нельзя с помощью накрутки поднять сайт, который находится далеко «за сотым километром».
Пример 4. Накрутка «через прокси». Пожалуй, это самый очевидный для оптимизаторов метод, напарсить или купить себе прокси и через них что-то делать. Что происходит в этом случае. У Яндекса хранится очень большое количество информации про то, с каких айпишников, какие пользователи к ним приходят и что делают. Соответственно проксями пользуется там не один человек, а прокси там общедоступные. И с них там чего только не делают, например, рассылают спам (у Яндекса есть почта, кстати, и у Гугла тоже), допустим парсят выдачу, напарываются на капчу… Взяли короче всех, кто напарывается на капчу, и исключили из ранжирования, например. Легко! На самом деле поисковым системам приходится в контекстной рекламе отсекать до 30% кликов. При отсечении каких-то пользовательских аномалий поисковики перестраховываются, они предпочитают не учесть какое-то количество реальных пользователей, но зато исключить и все накрутки. Тоесть, за счет не очень точной работы они повышают полноту. И это правильно.
В общем, накрутка через прокси - не катит. Вообще никакая накрутка не катит.
Пример 5. «Ботнет». На самом деле это тоже самое, что через прокси накручивать. Давайте лучше не будем про это. «Ботнет» - это вообще уголовно наказуемое деяние, никогда не пользуйтесь «ботнетом»!
Примеры закончились, теперь я расскажу, почему все накрутки отсекаются.
Самый убойный аргумент такой – любая поисковая система может взять некую эталонную выборку хороших пользователей (например, всех сотрудников Google и их родственников с установленным Google баром) и сравнивать все подозрительные и аномальные явления с этой эталонной выборкой. Если что-то не совпадает, идет не так – то оно подлежит немедленному отсечению.
На мой взгляд, эталонная выборка – это самый весомый аргумент, который позволяет поисковым системам бороться с накруткой поведенческих факторов. И главное, как тут ни крути, а попасть в нее нельзя, вы же не сотрудник Google, и даже не родственник, поэтому вы в эту эталонную выборку никак не попадаете.
Все.
1192 Прочтений • [РИФ+КИБ 2011: Станислав Ставский «Антифрод - есть ли шансы у накрутчиков поведенческих факторов»] [20.04.2012] [Комментариев: 0]