«Властелин колец» Толкина и «Основание» Азимова: математики 188bet体育_188bet亚洲体育_点此进入 проанализировали тексты мировых бестселлеров
Исследователи Санкт-Петербургского университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль) предложили новое решение для компьютерного исследования авторства и стиля текстов, основанное на моделировании динамического процесса их написания.
Уникальный подход позволил ученым проанализировать произведения Джона Толкина, Айзека Азимова, Артура Кларка и?многих других известных писателей, увидев, каким образом менялся их?авторский стиль. Результаты одной из?последних работ научной группы опубликованы в?журнале Pattern Recognition издательского дома Elsevier.
Авторы исследования: постдок 188bet体育_188bet亚洲体育_点此进入 кандидат физико-математических наук Константин Амелин, профессор 188bet体育_188bet亚洲体育_点此进入?Олег Граничин, аспирант кафедры системного программирования 188bet体育_188bet亚洲体育_点此进入 Наталья Кижаева и?руководитель Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль), декан компьютерного факультета Колледжа ОРТ имени Брауде, профессор Зеев Волькович.
Для исследования математики выбрали известные литературные произведения: цикл из?семи научно-фантастических романов Айзека Азимова ?Основание?, серию произведений Джона Голсуорси ?Сага о?Форсайтах?, роман в?трех томах Джона Толкина ?Властелин колец? и?другие книги. В?предыдущих работах они также анализировали произведения Джоан Роулинг (цикл книг про Гарри Поттера). Интерес для исследователей представляет именно большой массив материалов, который автор создавал на?протяжении долгого времени: математические методы позволяют увидеть, как менялись особенности стиля писателя.
Работать с?большими данными можно традиционно: классифицировать?их, искать схожие элементы, подобия или группы. Мы?же представили новый взгляд на?большие данные и?предложили изучить?то, каким образом они были созданы.
Профессор 188bet体育_188bet亚洲体育_点此进入 доктор физико-математических наук Олег Граничин
?Например, любой текст кто-то написал, наговорил или зафиксировал иным способом. Этот процесс тоже имеет свои значимые характеристики, которые проявляются, например, в?авторском стиле писателя. Сегодня мы?не?просто изучаем?то, как выглядят данные, а?вскрываем характеристики процесса их?создания. До?нас подобным образом тексты еще никто не?анализировал? — рассказал профессор 188bet体育_188bet亚洲体育_点此进入 доктор физико-математических наук Олег Граничин.?
В?статье исследователи сравнили три книги из?цикла ?Властелин колец? Джона Толкина с?двумя другими его произведениями?— ?Хоббитом? и??Сильмариллионом?. Метод достаточно точно определил, что первая повесть была написана тем?же автором, который создал трилогию, а?вот ?Сильмариллион? заметно отличается по?стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и?легенд Средиземья дорабатывал сын Джона Толкина?— Кристофер Толкин, который несколько лет изучал черновики отца.
?Заметны отличия стиля и?в?произведениях одного автора,?— рассказывает аспирант кафедры системного программирования 188bet体育_188bet亚洲体育_点此进入 Наталья Кижаева. —?К?примеру, четвертую часть из?цикла "Основание" Айзек Азимов написал спустя почти 30?лет после того, как была создана третья часть,?— на?этом настояли его поклонники. Наш метод позволил разделить семь книг серии на?два кластера: созданные до?1953 года и?после 1982. За?30?лет изменился сам автор, его окружение, его видение жизни?и, как следствие,?— авторский стиль?.
Сотрудники научной лаборатории по?анализу и?моделированию социальных процессов 188bet体育_188bet亚洲体育_点此进入 работают и?над другими проектами, которые находятся на?стыке гуманитарных и?точных наук. В?июле 2016 года с?помощью уникальной технологии для анализа рукописных текстов им?удалось показать, что рукопись ?Аль-Хитат? (?Описание Египта?), хранящаяся в?Мичиганском университете, c?большой вероятностью является оригиналом знаменитого труда египетского историка аль-Макризи, хотя ранее она считалась копией.
Исходными данными для представленного в?статье метода моделирования динамического процесса написания текстов являются не?только последовательности символов текста и?слова, а?еще и?последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов ?_мама_? компьютерная программа, в?частности, выделит в?тексте триграммы ?_ма?, ?мам?, ?ама?, ?ма_?. Далее исследуемый документ делится на?поддокументы, из?которых формируется упорядоченная последовательность появления N-грамм, где ищется зависимость между каждым из?полученных таким образом поддокументов и?его ?соседями?. Для этого используются методы, разработанные ранее в?теории обработки сигналов, выделяющие частотные характеристики в?последовательностях данных. Новый метод определяет своеобразные ?частотные характеристики? авторского стиля по?аналогии с?частотами физических волн, регистрируемых специальными приборами.
Создатели алгоритма планируют опробовать методику и?на?произведениях русской литературы, ведь его можно применять для анализа текстов, написанных на?других языках, использующих латинский алфавит, кириллицу и?арабскую графику.
Разработка, как отмечают исследователи, может помочь в?анализе не?только литературных произведений, но?и?неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на?диспетчерские пульты или в?различные кол-центры по?работе с?клиентами. Израильские коллеги применяют разработку для определения искусственно сгенерированных текстов, написанных не?человеком, а?машиной. Например, существуют программы, фабрикующие тесты, похожие на?настоящие научные статьи, которые нередко принимают для опубликования в?известных журналах. Метод позволяет с?большей точностью отличать такие статьи от?текстов, написанных человеком.