Листая старый фолиант

Специалисты Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) продолжают работы по внедрению искусственного интеллекта в изучение памятников письменного наследия, которые хранятся в Центре восточных рукописей и ксилографов. В первую очередь это касается текстов на тибетском и старописьменном монгольском языках. Исследования в этом направлении начались в 2021 году при поддержке председателя СО РАН академика Валентина Николаевича Пармона и академика Александра Михайловича Сергеева (тогда — президента РАН).

«Здесь можно выделить две основные задачи. Во-первых, оптическое распознавание символов, то есть приведение сканов документов в машиночитаемый вид, который на следующем этапе позволяет компьютерным образом обработать текст и, самое главное, осуществлять полнотекстовый поиск на языке оригинала. Во-вторых, это машинный перевод — с языка оригинала на заданный язык, в нашем случае это русский», — пояснил доктор исторических и кандидат физико-математических наук Олег Сергеевич Ринчинов (ИМБТ СО РАН) в ходе своего доклада на международной конференции «Цыбиковские чтения — Х».

По словам ученого, оптическое распознавание, относящееся к компьютерному зрению, в свою очередь подразумевает выполнение задачи определения, детекции объектов: необходимо на изображении найти область, где находится текст, затем разделить его на отдельные графемы и уже к ним применять алгоритмы оптического распознавания символов.

Чтобы научить искусственный интеллект всё это делать, нужно создать набор дата-сетов, или обучающих массивов данных. «Это очень громоздкая и трудоемкая задача, которая сейчас выполняется на базе нашего ЦВРК, — прокомментировал исследователь. — Компания МТС в нынешнем году поддержала очередной этап реализации проекта по оптическому распознаванию символов тибетской письменности, и сейчас мы работаем над созданием 1 200 дата-сетов в дополнение к тем 500, которые были сделаны в 2021 году. Таким образом мы получим набор в 1 700 дата-сетов, примерно около 10 000 письменных строк. На этом множестве наши партнеры из Новосибирского государственного университета будут обучать модели компьютерного зрения».

Вторая задача — машинный перевод, он относится к обработке естественных языков, и здесь используется другой вид нейросетей — трансформеры. Одна из наиболее широко применяемых и известных таких нейросетей, обученная на миллиардах токенов, — ChatGPT. «Нам необходимо обеспечить хотя бы 10 тысяч токенов, языковых единиц (в нашем случае это предложения), для обоих языков — тибетского и письменного старомонгольского. Мы эту задачу решаем обращением к уже существующим переводам и уже существующим транслитерациям», — рассказал Олег Ринчинов.

Он добавил, что технологическим партнером ученых из ИМБТ СО РАН с 2021 года является Новосибирский государственный университет, но в последнее время интерес к проекту проявил также Институт вычислительной математики и математической геофизики СО РАН. «Мы договорились в ближайшее время провести тематический семинар, где представим наше видение проблематики», — заключил Олег Ринчинов.

Источник:

Наука в Сибири

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Академгородок

Главное меню

СО РАН поможет Донбассу

Артефакты сибирской пашни

«Съедобные» ландшафты

Возможности карбоновых полигонов

Лошади из плейстоцена

"Умная подсветка"

Гибридный адсорбент

Лечебные свойства цианобактерий

Модель саркопении