Становится ли веб-мастер в России «грамотнее»? (на примере анализа состояния файла robots.txt сайтов Яндекс.Каталога)
Интернет – очень динамичная среда. С момента публикации предыдущей статьи «Исследование состояния файла robots.txt сайтов Яндекс.Каталога» прошло уже два с половиной года. Это очень значимый срок. За это время многие технологии успели устареть, а те, которые раньше были лишь уделом новаторов и экспериментаторов, заняли серьёзные позиции, и без них уже сложно представить современную веб-разработку. Сайтостроительство из «кустарной» отрасли превращается в отрасль профессиональную. Как объективно изменилась грамотность вебмастеров? Мы постараемся дать ответ на этот вопрос, проанализировав состояние одного из главных файлов, отвечающих за индексацию сайта – robots.txt. Постараемся разобраться в этом вопросе, сравнив данные, полученные в августе 2010 года, с данными за февраль 2008. Цели исследования • Определить качественный уровень грамотности вебмастеров сайтов, размещенных в каталоге Яндекса. • Определить, насколько профессионально используется файл управления индексацией сайта robots.txt. Методы и средства Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать главный домен, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. ([1]). Исследовались следующие параметры файла robots.txt: • статус коды ответов серверов, • mime типы для файлов robots.txt, • наличие и правильность указания кодировки в заголовке ответа сервера, • проверка корректности синтаксиса и орфографии при написании директив, • использование специализированных команд. Статус коды HTTP коды статуса (возвращаемые сервером заголовки) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Для оценки того, насколько активно веб-мастера используют возможность управлением индексацией своего сайта, мы собрали статус коды файлов robots.txt для сайтов, описанных в каталоге поисковой системы Яндекс. Для данных 2010 г. распределение по кодам ответа сервера выглядит следующим образом: Таблица 1 – Распределение статус кодов, данные 2010 г. Сравним с данными, полученными в 2008 г.: Число сайтов, у которых при обращении к файлу robots.txt возвращается верный заголовок ответа сервера, значительно выросло и составляет чуть менее 58%, тогда как в 2008 году был только 41%. Код ответа сервера 200 говорит о том, что файл существует и может быть загружен. MIME типы MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой документ передается. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких, как кодировка документа. Единственный MIME тип, который должен возвращать файл robots.txt, - это текст (text/plain). Из числа исследуемых сайтов, после сбора статус кодов, осталось 51215 сайтов, ответивших заголовком 2xx (документ существует), у 48604 (94,9%) из которых MIME тип соответствует «text/plain». Соответственно, 2611 (5,1%) сайтов возвращают MIME тип, отличный от верного (по данным 2008 года, таких сайтов было 8,03%). Исследуемые серверы ответили следующими различными значениями MIME типов: Таблица 2 – Разнообразие кодов ответов сервера Кодировка Ситуация с кодировкой за два с половиной года не изменилась. По-прежнему присутствует большое разнообразие в настройках кодировки сервера. Если в феврале 2008 года было всего 9 различных вариантов указания кодировки, то в 2010 году выбор стал богаче: 12 различных вариантов. Таблица 3 – Разнообразие кодировок в ответах серверов. Данная ситуация не является критичной, так как большинство индексирующих роботов поисковых систем определяют кодировку загруженного документа самостоятельно. Комментарии В robots.txt можно использовать только один вид комментариев. Комментарием считается строка после знака “#”. При этом среди исследованных файлов были найдены: • HTML комментарии “< !- - >“(25 фалов); • комментарии в стиле C++ “//”(20 файлов); • комментарии ИСР Delphi “{}“ (56 файлов); Стоит отметить, что в исследовании, которое проводилось в 2008 году, комментарии по типу ИСР Delphi не встречались. Обычные синтаксические ошибки Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращается вокруг этого. 1) Дополнительная пустая строка. На момент исследования доля таких сайтов - 0,6% (318 сайтов), в то время как в 2008 году таких сайтов было 1,6%. 2) Пропущен символ начала новой строки между User-Agent и правилами для индексации. Сайтов с подобной ошибкой - 0,4% (217), в 2008 году доля таких сайтов была 1,07%. 3) Строка с агентом после правила Disallow не разделена пустой строкой. В каталоге Яндекса 0,7% (380) таких сайтов. Два с половиной года назад: процент сайтов с такой ошибкой был 1,45%. Задержка сканирования За время, прошедшее с предыдущего исследования, индексирующий робот поисковой системы Яндекс официально стал поддерживать директиву crawl-delay. Эта мера значительно повлияла на количество сайтов, в robots.txt которых указана эта директива. По данным 2010 года, из 51215 сайтов на 3406 (6,7%) директива crawl-delay присутствует. В 2008 году таких сайтов было всего 2,3%. Опечатки Очень часто причиной того, что робот поисковой системы игнорирует инструкции в файле robots.txt, являются банальные опечатки. В указанном ниже списке встречается 19 различных написаний директивы Disallow: При этом написание директивы user-agent вызывает значительно меньше сложностей. Найдено 11 различных вариантов: Общая грамотность в написании этой директивы за 2 с половиной года снизилась. В 2008 году вариантов написания user-agent было всего 7. Другие ошибки и курьёзы Многие вебмастера, вероятно, слышали о том, что необходим файл robots.txt, но не совсем понимают, для чего он нужен. Поэтому появилось множество курьёзов. Разработчики сайта alicecoopernet.narod.ru, возможно, верят в магическую силу наличия robots.txt на сайте. И, видимо, из-за отношения к этому файлу как к особенной магии, он содержит только следующие строки: Некоторые вебмастера считают, что дизайн должен быть везде: не только на основном сайте, но и во вспомогательных файлах. Например, документ robots.txt на сайте benbarnes.flybb.ru содержит изображение роботов. Всё логично, не поспоришь: У многих любителей фантастики слово «робот» в первую очередь ассоциируется с Айзеком Азимовым. Вебмастер, сайта last.fm, вероятно, относится к таким людям. В robots.txt он перечислил три закона роботехники: Sitemap.xml C момента проведения исследования 2008 года, формат sitemap.xml стал официально поддерживаться Яндексом. Файл Sitemap — это файл, расположенный на сайте и содержащий дополнительную информацию о страницах, подлежащих индексированию. С помощью файла Sitemap можно сообщить индексирующим роботам поисковых систем, какие страницы сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно ([2]). В связи с этим мы решили собрать статус коды ответов сервера также и для этого типа файлов. На август 2010 года файл sitemap.xml присутствует на 9247 сайтах, что составляет 9,7% от всей исследуемой выборки сайтов. Выводы и заключение 1. С 2008 года значительно улучшилась ситуация с наличием файлов robots.txt. Процент сайтов с установленным robots.txt увеличился на 18% и составляет чуть менее 58%. 2. Улучшилась ситуация с указанием MIME-типов для файлов robots.txt. Количество файлов с неверным типом уменьшилось с 8,03% (в 2008 году) до 5,1% в 2010 году. 3. За 2 года ситуация с указанием кодировки отдаваемого документа заметно не изменилась. До настоящего момента администраторы веб-серверов так и не определились, как прописывать кодировку UTF-8. 4. Рост количества файлов с неверными комментариями в robots.txt соответствует общей выборке, относительное количество таких файлов за два с половиной года не изменилось. 5. Уменьшилось количество файлов с ошибками в синтаксисе robots.txt, по основным измеряемым параметрам количество неверных конструкций снизилось до значений менее 1%. 6. Значительно выросло количество сайтов, где в robots.txt указана директива Crawl-Delay. На настоящий момент таких сайтов: 6,7%. 7. Файл sitemap.xml присутствует менее чем на 10% сайтов. 8. Исследование косвенно показало рост количества грамотных веб-мастеров в российском сегменте Интернет в период с 2008 по 2010 год. Источники 1. http://robotstxt.org.ru/ 2. http://help.yandex.ru/webmaster/?id=1007070 ИнтерЛабс: Сахно Олег Игоревич, Селин Евгений Валерьевич.
444 Прочтений • [Становится ли веб-мастер в России «грамотнее»? (на примере анализа состояния файла robots.txt сайтов Яндекс.Каталога)] [20.04.2012] [Комментариев: 0]