Листая старый фолиант

Специалисты Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) продолжают работы по внедрению искусственного интеллекта в изучение памятников письменного наследия, которые хранятся в Центре восточных рукописей и ксилографов. В первую очередь это касается текстов на тибетском и старописьменном монгольском языках. Исследования в этом направлении начались в 2021 году при поддержке председателя СО РАН академика Валентина Николаевича Пармона и академика Александра Михайловича Сергеева (тогда — президента РАН). 

«Здесь можно выделить две основные задачи. Во-первых, оптическое распознавание символов, то есть приведение сканов документов в машиночитаемый вид, который на следующем этапе позволяет компьютерным образом обработать текст и, самое главное, осуществлять полнотекстовый поиск на языке оригинала. Во-вторых, это машинный перевод — с языка оригинала на заданный язык, в нашем случае это русский», — пояснил доктор исторических и кандидат физико-математических наук Олег Сергеевич Ринчинов (ИМБТ СО РАН) в ходе своего доклада на международной конференции «Цыбиковские чтения — Х»

По словам ученого, оптическое распознавание, относящееся к компьютерному зрению, в свою очередь подразумевает выполнение задачи определения, детекции объектов: необходимо на изображении найти область, где находится текст, затем разделить его на отдельные графемы и уже к ним применять алгоритмы оптического распознавания символов. 

Чтобы научить искусственный интеллект всё это делать, нужно создать набор дата-сетов, или обучающих массивов данных. «Это очень громоздкая и трудоемкая задача, которая сейчас выполняется на базе нашего ЦВРК, — прокомментировал исследователь. — Компания МТС в нынешнем году поддержала очередной этап реализации проекта по оптическому распознаванию символов тибетской письменности, и сейчас мы работаем над созданием 1 200 дата-сетов в дополнение к тем 500, которые были сделаны в 2021 году. Таким образом мы получим набор в 1 700 дата-сетов, примерно около 10 000 письменных строк. На этом множестве наши партнеры из Новосибирского государственного университета будут обучать модели компьютерного зрения».

Вторая задача — машинный перевод, он относится к обработке естественных языков, и здесь используется другой вид нейросетей — трансформеры. Одна из наиболее широко применяемых и известных таких нейросетей, обученная на миллиардах токенов, — ChatGPT. «Нам необходимо обеспечить хотя бы 10 тысяч токенов, языковых единиц (в нашем случае это предложения), для обоих языков — тибетского и письменного старомонгольского. Мы эту задачу решаем обращением к уже существующим переводам и уже существующим транслитерациям», — рассказал Олег Ринчинов.

Он добавил, что технологическим партнером ученых из ИМБТ СО РАН с 2021 года является Новосибирский государственный университет, но в последнее время интерес к проекту проявил также Институт вычислительной математики и математической геофизики СО РАН. «Мы договорились в ближайшее время провести тематический семинар, где представим наше видение проблематики», — заключил Олег Ринчинов.