"Поисковик" для ученых


В ИЦиГ создали пакет программ для автоматического извлечения информации из научных текстов
18 октября 2023

Учеными из Курчатовского геномного центра ИЦиГ СОРАН создан пакет программ для автоматического анализа мировой совокупности текстов научных публикаций, патентов и фактографических баз данных с использованием методов искусственного интеллекта для планирования экспериментов по получению промышленных штаммов.

Одной из задач центра геномных исследований мирового уровня «Курчатовский геномный центр» (Национальный проект “Наука и университеты”) является создание пакетов программ и технологических протоколов для конструирования промышленных штаммов с целевыми свойствами. Например, для пищевой промышленности и производства синтетических моющих средств необходимы высокоактивные и термостабильные альфа-амилазы и протеазы. Микроорганизмы – потенциальные продуценты искомых продуктов, найденные в природе, как правило, не отвечают требованиям промышленного производства: либо имеют недостаточно активные или нестабильные ферменты, либо не способны их производить в больших количествах, поэтому они нуждаются в модификации методами генной инженерии. Использование компьютерных программ для дизайна экспериментов для конструирования супер-продуцентов позволяют повысить эффективность и снизить затраты на создание новых штаммов.

Для планирования мутаций крайне важно использовать уже известные данные о влиянии различных мутаций на активность белка, его кислото- и термоустойчивость. Подобная информация может быть найдена в научных статьях, описании патентов или рефератов. Проблема заключается в гигантском объеме научной литературы, который продолжает ежегодно увеличиваться. Так, в 2021 году только в одну базу данных PubMed было добавлено более 1,5 млн. рефератов биомедицинских публикаций.

Учеными из Курчатовского геномного центра ИЦиГ СОРАН были созданы программы для автоматического анализа мировой совокупности текстов научных публикаций, патентов и фактографических баз данных с использованием методов искусственного интеллекта для планирования экспериментов по получению промышленных штаммов. Один из авторов этих программ, ведущий научный сотрудник ИЦИГ СО РАН, Владимир Иванисенко рассказал:

«Ранее нами была разработана система Associative Network Discovery System (ANDSystem), которая осуществляет автоматизированный поиск, интеграцию и представление знаний в виде семантических сетей, их визуализацию и анализ». Учеными была разработана, а затем усовершенствована информационно-поисковая веб-система ANDDigest, предназначенная для поиска и анализа информации в базе данных PubMed. «Мы столкнулись с тем, что авторы часто используют разные термины для обозначения одного и того же процесса. Кроме того, гены и белки имеют по нескольку синонимов как для полных, так и для кратких названий, что вносит дополнительные сложности в поиск и отбор информации» — отметил Владимир Иванисенко.

Усовершенствованная версия ANDDigest повысила среднюю точность распознавания коротких названий молекулярно-генетических объектов на 13%.  Cистема ANDSystem с веб-модулем ANDDigest может не просто сортировать, визуализировать и фильтровать найденную информацию, включая отображение упоминаемых объектов в тексте, ссылки на внешние базы данных, сортировку данных по дате публикации, количеству цитирований, Н-индексам журналов и т.д., но и предоставлять данные о тенденциях развития выявленных объектов, основанных на динамике интереса, в соответствии с частотой их упоминаний в PubMed по годам. Данные, извлеченные при помощи ANDSystem и ANDDigest, были применены в разработанном пакете программ для компьютерного моделирования мутаций в целевых белках с целью повышения их активности и устойчивости.

Разработанный учеными ИЦИГ СО РАН инструмент может применяться не только для поиска мутаций для планирования продуцентов целевых белков, но и для интерпретации данных экспериментальной генетики, поиска ассоциаций между объектами молекулярной генетики, а также для подготовки научно-аналитических обзоров. В настоящее время он доступен по адресу  https://anddigest.sysbio.ru/ .