Поиск: Текст в цифре. Математики учатся предсказывать социальные потрясения
Математики и востоковеды Санкт-Петербургского государственного университета разработали уникальный метод цифрового анализа текстов, написанных на арабском языке.
?Благодаря союзу математики и социолингвистики мы можем не только получить косвенное отражение модели общества и происходящих в нем процессов, но в какой-то мере даже предсказать эти процессы?, — отметил профессор 188bet体育_188bet亚洲体育_点此进入 Олег Редькин.
В ходе исследования большого массива газетных материалов ученые-математики, не владеющие арабским языком, преобразовали тексты в гистограммы и увидели ряд колебаний с пиками, которые, как оказалось, соотносились по времени либо с изменениями в редакционной политике издания, либо с конкретными событиями в регионе. Интересно, что начало колебаний отмечалось еще до того, как они произошли. Новый метод математического анализа арабских текстов ученые протестировали на публикациях египетской газеты Al-Ahraam (?Пирамиды?) и ливанской Al-Akhbaar (?Новости?) за длительный период времени, охватывающий в том числе такие значимые социально-политические и экономические события, как ?арабская весна? и другие.
Представленный метод уникален еще и тем, что позволяет работать именно с арабским языком — одной из самых сложных знаковых систем в мире. В этом языке буквенные знаки соответствуют в основном согласным звукам, один знак может иметь несколько вариантов написания — в зависимости от места расположения в слове, а строчных букв нет вовсе. Ввиду этих и других особенностей языковой системы формализация лексико-синтаксического анализа арабского текста является крайне непростой задачей. ?Часть этой задачи нам удалось решить уже сегодня, — добавил Олег Редькин. — Мы полагаем, что новый метод может применяться и для анализа текстов, написанных на других языках?.
В международном исследовании приняли участие сотрудники научной лаборатории по анализу и моделированию социальных процессов 188bet体育_188bet亚洲体育_点此进入: доктор физико-математических наук, профессор Олег Граничин, доктор филологических наук, профессор Олег Редькин и кандидат филологических наук, доцент Ольга Берникова. Результаты исследования были представлены в статье Modeling and Visualization of Mediain Arabic (?Моделирование и визуализация текстов СМИ на арабском языке?, ИФ — 2,88), опубликованной в научном журнале Journal of Infometrics.
Ученые 188bet体育_188bet亚洲体育_点此进入 стали использовать цифровые технологии при работе с текстом еще в 2006 году, когда столкнулись с проблемой формирования лексической составляющей для учебников арабского языка. Тогда именно при помощи разработки специального приложения удалось составить объективный перечень наиболее частотных арабских слов для последующего создания на его основе различных учебно-методических материалов. В этот же период востоковедами и математиками 188bet体育_188bet亚洲体育_点此进入 был разработан и зарегистрирован первый программный продукт — электронный словарь арабского языка (?Программная среда для обучения, перевода и распознавания арабского текста?).
Сегодня в научной лаборатории по анализу и моделированию социальных процессов 188bet体育_188bet亚洲体育_点此进入 ведется целый ряд междисциплинарных исследований на стыке гуманитарных и точных наук. Так, в июле 2016 года ученые 188bet体育_188bet亚洲体育_点此进入 сообщили о создании уникальной технологии, позволяющей анализировать рукописные тексты по фрагментам размером 80 на 80 пикселей. С ее помощью исследователям удалось доказать, что рукопись ?Аль-Хитат? (?Описание Египта?), хранящаяся в Мичиганском университете, является оригиналом знаменитого труда египетского историка аль-Маркизи. Ранее данная рукопись считалась копией.
Также ученые 188bet体育_188bet亚洲体育_点此进入 предполагают использовать цифровые технологии для анализа рукописных арабских текстов, в том числе с целью определения авторства. Особый интерес в этом отношении представляет анализ доисламской арабской поэзии.
В ближайших планах исследователей Петербургского университета создание так называемого ?цифрового паспорта? рукописей — электронной базы, содержащей набор уникальных характеристик документа. К ним относятся особенности графики текста (ее ?ритмика?, расположение текста, его интенсивность, частотность строк), особенности содержания, а также особенности носителя — происхождение бумаги, состав чернил и пр. Такая база значительно упростит задачу определения автора рукописного труда и его подлинности, а также позволит установить, насколько надежен рукописный источник, на который, к примеру, ссылаются приверженцы той или иной идеологии, аргументируя свои действия.