Автора! Автора!
Компания Cognitive Technologies представила свою новую разработку, способную опровергнуть или подтвердить авторство, опираясь на анализ текстов. Презентацию заметно оживила одна небезызвестная история с обвинением в плагиате.
Автор: Григорий Рудницкий
| Раздел: Статьи |
Дата: 09 октября 2008 года
Каждый человек, даже если ему не приходится зарабатывать на жизнь писательским трудом, обладает неповторимым и уникальным литературным стилем (ладно, согласны, он далеко не всегда литературный — но это уже нюансы восприятия). Один автор использует больше глаголов, другой, подобно Льву Толстому, выражает свою мысль в исключительно длинных синтаксических конструкциях. Кто-то пишет лирично. Кого-то выдает рубленый стиль. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями. Литературоведы, к примеру, способны благодаря знанию стиля того или иного писателя, идентифицировать его произведения с большой долей достоверности.
Но если человеческий мозг способен что-то проанализировать, то, теоретически, этому же можно научить и компьютерную программу. Зачем, спросите вы? Способов применения у такой разработки хоть отбавляй. Это может быть анализ школьных и студенческих работ на предмет плагиата, криминалистическая экспертиза, литературоведение...
И подобное ПО существует! Вчера такого рода программу представила компания Cognitive Technologies. Называется продукт простенько и со вкусом - Text Analyzer. Принцип работы "Анализатора" с общих чертах вполне доступен пониманию. Программе, ознакомленной с образцами творчество предполагаемого автора, скармливается исследуемый текст. Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста и выявляет порядка сотни характеристик, ему присущих. Очевидно, что чем объёмнее текст и разнообразнее встречающиеся в нем конструкции, тем репрезентативнее будут результаты. При этом опасений, что программа захлебнется, если попытаться заставить ее обработать полное собрание сочинений средних размеров, возникнуть не должно - скорость разбора текста на современном офисном компьютере составляет 450-500 страниц в минуту.
По словам представителей компании, данная разработка выгодно отличается от некоторых уже присутствующих на российском рынке систем анализа текста. Если последние учитывают, в основном те признаки, которые можно легко рассчитать вручную (количество слов в предложении, среднее количество тех или иных частей речи, частотный словарь и т.д.), то Text Analyzer основное внимание уделяет структурным связям и подчиненности одних конструкций другим в рамках предложения. Выделенные связи не зависят от перестановки предложений внутри текста, а не нарушаются при контекстной замене слов. Как уверяют разработчики, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Иллюстрацией данному утверждению послужил эксперимент с опознанием авторства басни про ворону и лисицу, где "ворона" была заменена на "корову", "лисица" на "синицу", а "сыр" - на "сервелат". Надо сказать, что и в этом случае программа безошибочно приписала авторство великому русскому баснописцу.
Другой, более интересный акт марлезонского балета имел несколько скандальный характер. С помощью Text Analyzer была исследована та глава из романа Дарьи Донцовой "Жаба в кошельке", которая стала причиной обвинения писательницы в плагиате. Известный журналист и блоггер Игорь Черский заявил, в данном романе использован текст одного из его рассказов. И в самом деле - анализ текста показал, что этот спорный фрагмент гораздо больше похож на произведения Игоря Черского, чем на остальные романы Донцовой. Кстати, и эти романы тоже существенно отличаются один от другого по стилю, что наводит на подозрения, что их писали разные люди.
В настоящий момент продукт Cognitive Text Analyzer доступен в виде модуля, который бесплатно можно скачать с сайта компании-разработчика. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики, как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания и др.). Можете попробовать себя в роли криминалиста и вы...