Компания Яндекс объявила сегодня о том, что одноименная поисковая система теперь умеет индексировать документы в формате Macromedia Flash и уже проиндексировано десятки тысяч страниц, содержащих текст, и сотни тысяч страниц со ссылками в этом формате. Такие страницы помечаются значком “flash” перед заголовком страницы в результатах поиска. “Macromedia Flash - современный мультимедийный формат информации, позволяющий сочетать текст, графику и звук. - отметил Александр Садовский, менеджер поисковых проектов компании - Все большее число сайтов строятся на технологии Flash, не дублируя содержимое в виде HTML-страниц. Поскольку мы хотим предложить пользователям как можно более полную базу поиска, мы решили, что пришло время индексировать Flash”. Напомним, что первой из рунетовских поисковых систем понимать формат файлов Flash научилась поисковая система Рамблер, однако при этом она ограничилась индексацией ссылок в файлах, обходя наиболее часто встречающуюся проблему для индексации в виде навигации по сайту, выполненной в этом формате. Мы обратились за комментариями к специалистам компании Яндекс - Илье Сегаловичу, Елене Колмановской и Александру Садовскому: - Насколько оправданна индексация Flash - иначе говоря, какое количество уникального контента оказалось доступным благодаря нововведению? Не секрет, что большинство веб-сайтов дублируют содержание Flash-версии в обычном HTML, в том числе и для улучшения индексации поисковыми системами. Индексация Flash - это не эпохальное событие, а просто еще один шаг в сторону полноты базы поиска. До сих пор многие владельцы Flash-сайтов дублировали их содержание в HTML именно потому, что поисковые роботы на флэше “не читали”. Теперь веб-мастера могут выбирать основу для построения сайта, думая об удобстве пользователя, а не о том, будет ли он находиться в Яндексе. Теперь будет! Как сказал Илья Сегалович: “Когда сайтом месяца стал сайт Джоан Роулинг (jkrowling.com), выполненный полностью на флеше и содержащий огромную массу интересного и уникального материала, не повторяющегося в виде HTML, стало понятно, что индексации flash не избежать :-)”. - При разборе страницы в обычном HTML у индексатора есть определенные правила обработки отдельных элементов страниц - т.е. заголовку страницы придается одно значение, тексту ссылки другое и т.д. А как индексируется содержание Flash, анализируется ли там структура текста? У индексатора есть определенные правила и при работе с Flash, но технические подробности рассказывать не хотим - это не очень интересно, да и провоцировать флэшовый спам не хочется. - Если робот Яндекса попадает на сайт, где автоматически определяется наличие flash-плагина в браузере и в зависимости от этого происходит редирект на соответствующую версию сайта - на какую версию сайта он попадает теперь? Робот Яндекса не представляется как браузер, имеющий плагин. Поэтому попадать будет туда же, куда и теперь. Но если есть хотя бы одна ссылка на чистую flash-версию, без редиректов, то и она попадет в индекс. - Чему Яндекс доверяет больше при прочих равных условиях - HTML или Flash? Формат не влияет на ранжирования - это верно не только для flash, но и для doc, pdf, txt. При ранжировании мы учитываем извлеченный роботом текст и особенности оформления, а не способ представления данных, каковым, по сути, формат и является. - Какие еще форматы данных на очереди на индексирование? Нет ли планов начать индексацию RSS - тем более, что опыт такой есть? Сергей, ну Вы же нас знаете - по традиции мы планов не раскрываем…