Возможно вы искали: 'Fit Up'

August 22 2025 01:13:47

Статистика

Статей: 87772
Просмотров: 98215871

Игры

Injustice: Gods Among Us ...
Dark Souls 2 Dark Souls II - вторая часть самой хардкорной ролевой игры 2011-2012 года, с новым героем, сюжето...
Battlefield 4 Battlefield 4 - продолжение венценосного мультиплеер-ориентированного шутера от первого ли...

Кино

Steins;Gate Любители японской анимации уже давно поняли ,что аниме сериалы могут дать порой гораздо больше пи...
Ку! Кин-дза-дза Начинающий диджей Толик и всемирно известный виолончелист Владимир Чижов встречают на шумной моск...

Обзоры на игры

• Обзор Ibara [PCB/PS2]	18632
• Обзор The Walking ...	19085
• Обзор DMC: Devil M...	20190
• Обзор на игру Valk...	16148
• Обзор на игру Stars!	18050
• Обзор на Far Cry 3	18255
• Обзор на Resident ...	16286
• Обзор на Chivalry:...	17817
• Обзор на игру Kerb...	18242
• Обзор игры 007: Fr...	16903

Превью о играх

• Превью к игре Comp...	18231
• Превью о игре Mage...	14740
• Превью Incredible ...	15007
• Превью Firefall	13723
• Превью Dead Space 3	16608
• Превью о игре SimC...	15000
• Превью к игре Fuse	15672
• Превью Red Orche...	15821
• Превью Gothic 3	16643
• Превью Black & W...	17634

Главная » Статьи » Разное » Становится ли веб-мастер в России «грамотнее»? (на примере анализа состояния файла robots.txt сайтов Яндекс.Каталога)

Становится ли веб-мастер в России «грамотнее»? (на примере анализа состояния файла robots.txt сайтов Яндекс.Каталога)

Интернет – очень динамичная среда. С момента публикации предыдущей статьи «Исследование состояния файла robots.txt сайтов Яндекс.Каталога» прошло уже два с половиной года. Это очень значимый срок. За это время многие технологии успели устареть, а те, которые раньше были лишь уделом новаторов и экспериментаторов, заняли серьёзные позиции, и без них уже сложно представить современную веб-разработку. Сайтостроительство из «кустарной» отрасли превращается в отрасль профессиональную. Как объективно изменилась грамотность вебмастеров? Мы постараемся дать ответ на этот вопрос, проанализировав состояние одного из главных файлов, отвечающих за индексацию сайта – robots.txt. Постараемся разобраться в этом вопросе, сравнив данные, полученные в августе 2010 года, с данными за февраль 2008. Цели исследования • Определить качественный уровень грамотности вебмастеров сайтов, размещенных в каталоге Яндекса. • Определить, насколько профессионально используется файл управления индексацией сайта robots.txt. Методы и средства Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать главный домен, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. ([1]). Исследовались следующие параметры файла robots.txt: • статус коды ответов серверов, • mime типы для файлов robots.txt, • наличие и правильность указания кодировки в заголовке ответа сервера, • проверка корректности синтаксиса и орфографии при написании директив, • использование специализированных команд. Статус коды HTTP коды статуса (возвращаемые сервером заголовки) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Для оценки того, насколько активно веб-мастера используют возможность управлением индексацией своего сайта, мы собрали статус коды файлов robots.txt для сайтов, описанных в каталоге поисковой системы Яндекс. Для данных 2010 г. распределение по кодам ответа сервера выглядит следующим образом: Таблица 1 – Распределение статус кодов, данные 2010 г. Сравним с данными, полученными в 2008 г.: Число сайтов, у которых при обращении к файлу robots.txt возвращается верный заголовок ответа сервера, значительно выросло и составляет чуть менее 58%, тогда как в 2008 году был только 41%. Код ответа сервера 200 говорит о том, что файл существует и может быть загружен. MIME типы MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой документ передается. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких, как кодировка документа. Единственный MIME тип, который должен возвращать файл robots.txt, - это текст (text/plain). Из числа исследуемых сайтов, после сбора статус кодов, осталось 51215 сайтов, ответивших заголовком 2xx (документ существует), у 48604 (94,9%) из которых MIME тип соответствует «text/plain». Соответственно, 2611 (5,1%) сайтов возвращают MIME тип, отличный от верного (по данным 2008 года, таких сайтов было 8,03%). Исследуемые серверы ответили следующими различными значениями MIME типов: Таблица 2 – Разнообразие кодов ответов сервера Кодировка Ситуация с кодировкой за два с половиной года не изменилась. По-прежнему присутствует большое разнообразие в настройках кодировки сервера. Если в феврале 2008 года было всего 9 различных вариантов указания кодировки, то в 2010 году выбор стал богаче: 12 различных вариантов. Таблица 3 – Разнообразие кодировок в ответах серверов. Данная ситуация не является критичной, так как большинство индексирующих роботов поисковых систем определяют кодировку загруженного документа самостоятельно. Комментарии В robots.txt можно использовать только один вид комментариев. Комментарием считается строка после знака “#”. При этом среди исследованных файлов были найдены: • HTML комментарии “< !- - >“(25 фалов); • комментарии в стиле C++ “//”(20 файлов); • комментарии ИСР Delphi “{}“ (56 файлов); Стоит отметить, что в исследовании, которое проводилось в 2008 году, комментарии по типу ИСР Delphi не встречались. Обычные синтаксические ошибки Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращается вокруг этого. 1) Дополнительная пустая строка. На момент исследования доля таких сайтов - 0,6% (318 сайтов), в то время как в 2008 году таких сайтов было 1,6%. 2) Пропущен символ начала новой строки между User-Agent и правилами для индексации. Сайтов с подобной ошибкой - 0,4% (217), в 2008 году доля таких сайтов была 1,07%. 3) Строка с агентом после правила Disallow не разделена пустой строкой. В каталоге Яндекса 0,7% (380) таких сайтов. Два с половиной года назад: процент сайтов с такой ошибкой был 1,45%. Задержка сканирования За время, прошедшее с предыдущего исследования, индексирующий робот поисковой системы Яндекс официально стал поддерживать директиву crawl-delay. Эта мера значительно повлияла на количество сайтов, в robots.txt которых указана эта директива. По данным 2010 года, из 51215 сайтов на 3406 (6,7%) директива crawl-delay присутствует. В 2008 году таких сайтов было всего 2,3%. Опечатки Очень часто причиной того, что робот поисковой системы игнорирует инструкции в файле robots.txt, являются банальные опечатки. В указанном ниже списке встречается 19 различных написаний директивы Disallow: При этом написание директивы user-agent вызывает значительно меньше сложностей. Найдено 11 различных вариантов: Общая грамотность в написании этой директивы за 2 с половиной года снизилась. В 2008 году вариантов написания user-agent было всего 7. Другие ошибки и курьёзы Многие вебмастера, вероятно, слышали о том, что необходим файл robots.txt, но не совсем понимают, для чего он нужен. Поэтому появилось множество курьёзов. Разработчики сайта alicecoopernet.narod.ru, возможно, верят в магическую силу наличия robots.txt на сайте. И, видимо, из-за отношения к этому файлу как к особенной магии, он содержит только следующие строки: Некоторые вебмастера считают, что дизайн должен быть везде: не только на основном сайте, но и во вспомогательных файлах. Например, документ robots.txt на сайте benbarnes.flybb.ru содержит изображение роботов. Всё логично, не поспоришь: У многих любителей фантастики слово «робот» в первую очередь ассоциируется с Айзеком Азимовым. Вебмастер, сайта last.fm, вероятно, относится к таким людям. В robots.txt он перечислил три закона роботехники: Sitemap.xml C момента проведения исследования 2008 года, формат sitemap.xml стал официально поддерживаться Яндексом. Файл Sitemap — это файл, расположенный на сайте и содержащий дополнительную информацию о страницах, подлежащих индексированию. С помощью файла Sitemap можно сообщить индексирующим роботам поисковых систем, какие страницы сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно ([2]). В связи с этим мы решили собрать статус коды ответов сервера также и для этого типа файлов. На август 2010 года файл sitemap.xml присутствует на 9247 сайтах, что составляет 9,7% от всей исследуемой выборки сайтов. Выводы и заключение 1. С 2008 года значительно улучшилась ситуация с наличием файлов robots.txt. Процент сайтов с установленным robots.txt увеличился на 18% и составляет чуть менее 58%. 2. Улучшилась ситуация с указанием MIME-типов для файлов robots.txt. Количество файлов с неверным типом уменьшилось с 8,03% (в 2008 году) до 5,1% в 2010 году. 3. За 2 года ситуация с указанием кодировки отдаваемого документа заметно не изменилась. До настоящего момента администраторы веб-серверов так и не определились, как прописывать кодировку UTF-8. 4. Рост количества файлов с неверными комментариями в robots.txt соответствует общей выборке, относительное количество таких файлов за два с половиной года не изменилось. 5. Уменьшилось количество файлов с ошибками в синтаксисе robots.txt, по основным измеряемым параметрам количество неверных конструкций снизилось до значений менее 1%. 6. Значительно выросло количество сайтов, где в robots.txt указана директива Crawl-Delay. На настоящий момент таких сайтов: 6,7%. 7. Файл sitemap.xml присутствует менее чем на 10% сайтов. 8. Исследование косвенно показало рост количества грамотных веб-мастеров в российском сегменте Интернет в период с 2008 по 2010 год. Источники 1. http://robotstxt.org.ru/ 2. http://help.yandex.ru/webmaster/?id=1007070 ИнтерЛабс: Сахно Олег Игоревич, Селин Евгений Валерьевич.

Ссылки

HTML:
[BB Url]:

Похожие статьи
Название	Добавил	Добавлено
• Становится ли веб-мастер в России «...	Vova	20.04.2012

Ни одного комментария? Будешь первым :).

Пожалуйста, авторизуйтесь для добавления комментария.

Статьи

Рецензия на Pressure Чтобы обратить на себя внимание, начинающие маленькие разработчики, как правило, уходят в жанры, ...
Рецензия на Lost Chron... Игры, сделанные без любви и старания, похожи на воздушный шар – оболочка есть, а внутри пусто. Lo...
Рецензия на The Bridge «Верх» и «низ» в The Bridge — понятия относительные. Прогуливаясь под аркой, можно запросто перей...
Рецензия на SimCity Когда месяц назад состоялся релиз SimCity, по Сети прокатилось цунами народного гнева – глупые ош...
Рецензия на Strategy &... Название Strategy & Tactics: World War II вряд ли кому-то знакомо. Зато одного взгляда на ее скри...
Рецензия на игру Scrib... По сложившейся традиции в информационной карточке игры мы приводим в пример несколько похожих игр...
Рецензия на игру Walki... Зомби и продукция-по-лицензии — которые и сами по себе не лучшие представители игровой биосферы —...