Все свойства живых организмов в той или иной степени зависят от ДНК, будь то предрасположенность людей и животных к болезням или агропромышленные свойства растений. Недавно в журнале Nucleic Acids Research была опубликована статья об обученной на последовательностях ДНК модели GENA_LM, инструменте, с помощью которого ученые могут работать над расшифровкой сложной информации, скрытой в нашем геноме. Об особенностях первой российской ИИ-модели для ДНК, расшифровке генома и о том, как команда российских ученых конкурирует со Стэнфордом и NVIDIA, «Ъ-Науке» рассказывает доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН Вениамин Фишман.
— Подскажите, пожалуйста, что именно представляет собой GENA_LM?
— Я всегда говорю, что это похоже на ChatGPT, но для геномов. LM в названии расшифровывается как Language Model, то есть «Языковая модель». Наверное, единственное принципиальное отличие заключается в том, что генеративные модели, к которым относится GPT и ее аналоги, не только считывают информацию, но и выдают ее обратно на том же самом языке, на котором мы им эту входную информацию даем. Модели наподобие GENA относятся к так называемым энкодерам. Они умеют читать, но информацию, которую они выдают обратно, мы получаем только в понятном для компьютера формате, на вход подаем ДНК, а она нам на выходе — код.
— Почему вы выбрали именно такую архитектуру?
— Задачи, для которых нужно генерировать последовательность ДНК, бывают, но их не очень много. Более осмысленные задачи связаны с тем, чтобы из последовательности ДНК достать разнообразную полезную информацию о предрасположенности к болезням или регуляции генов. Для их решения на выходе нам нужно получить больше, чем просто последовательность букв ДНК.
— Что вдохновило коллектив на разработку GENA?
— Попытка ответить на вопросы о том, почему гены у человека и у других животных работают по-разному и какие бывают нарушения, поломки или внешние факторы, вызывающие отклонения в их работе. Люди имеют очень большую долю генетической компоненты в развитии разных заболеваний. Где-то с 2010 года стало понятно, что значительная часть этой компоненты связана именно с регуляцией работы генов. Но каким образом связана? Мы давно знаем, в каких примерно участках генома лежат те изменения, те варианты, то разнообразие, что связано с развитием болезней, но не знаем, как это работает. Поэтому не можем сделать очень точное, специфичное для какого-то человека предсказание, чтобы повлиять на развитие заболеваний.
Вторая компонента мотивации довольно простая, но важная для понимания того, как родилось направление использования методов машинного обучения в решении геномных задач. В 2000-е годы, во время моего студенчества, эксперименты делали «руками» по одному в неделю, потом появились роботы, которые могут проводить сотни тысяч экспериментов за два-три дня, позже сотни тысяч превратились в миллионы. На нынешнем уровне роботизации лабораторий это миллиарды. Соответственно, появляются и необходимость, и новые возможности для того, чтобы эти данные систематически обрабатывать: в голову они уже не помещаются, в Excel-табличку тоже.
— Расскажите поподробнее о том, почему точное расшифровывание геномных последовательностей является такой сложной задачей в современной биологии.
—Для начала надо понять, что современные биологи подразумевают под словом «расшифровывание». Раньше под этим процессом понимали составление последовательности химических оснований в ДНК. Расшифровали геном человека, написали последовательность букв. Эта задача уже не является сложной: методы прогрессируют, можно и быстро, и сейчас уже не очень дорого, при этом достаточно полно расшифровывать последовательности.
Понимание же смысла этих последовательностей — вызов. Вот мы получили для генома человека три миллиарда букв, есть у каждого генома несколько миллионов различий в этих длинных-длинных записях букв. У какого-то человека буква «А» поменялась на букву «Т» в такой-то позиции. И что? Интерпретация многих изменений науке неизвестна, ведь в подавляющем большинстве случаев, как буквы ни меняй, люди очень анатомически похожи: есть две руки и две ноги, человек — не муха дрозофила. Тем не менее большое количество маленьких изменений может вести к появлению очень важных различий. Например, кто-то заболеет диабетом, а кто-то нет. Эта информация рассеяна по всему огромному геному в виде точечных модификаций, каждая из которых по отдельности имеет очень незначительный эффект, но в сумме и при определенных связях между собой они приводят к значимым для нашей жизни последствиям.
— А чем использованные вами инструменты искусственного интеллекта отличаются от традиционных методов, используемых для изучения ДНК?
— Традиционные методы пытаются решать конкретную задачу: есть последовательность ДНК, есть поставленный ученым вопрос, будем искать ответ на этот вопрос тем или иным методом анализа. Мы сделали нечто новое.
Работа состоит из двух частей: создание некой общей модели, а потом уже ее использование для решения отдельных задач. При создании модели мы не ставили перед собой конкретную задачу, которая имела бы биологический смысл. Мы попытались научить компьютер понимать смысл ДНК и говорить на языке ДНК, чтобы с помощью этих навыков подойти к практическим вопросам.
— Получается, у GENA нет аналогов?
— Сама идея делать такие нейросети-трансформеры на ДНК впервые была озвучена в 2021 году, однако речь шла о существенно менее мощной модели, обученной на меньшем количестве данных. Она называлась DNABERT. Чуть позже одновременно вышли две большие работы в самых топовых журналах. Одна была представлена коллегами из Стэнфорда, вторая — биотех-стартапом InstaDeep в партнерстве с NVIDIA. Конкуренты у GENA очень мощные.
Первую версию модели мы опубликовали в 2022 году. Кстати, тогда первыми в мире обучили модель на самой полной версии генома человека T2T-CHM13. Официально подробное исследование и все семейство моделей GENA представили в январе 2025 года, но препринт выпустили «в мир» примерно полтора года назад. Он очень долго проходил рецензирование, потому что технология новая, очень много вопросов было о том, что это вообще такое и как инструмент использовать. Мы целых полтора года убеждали научное сообщество в том, что это по-настоящему новое и ценное направление.
У конкурентов ситуация была аналогичная: препринт они выпустили где-то полтора года назад, бок о бок с нами. Сейчас же как грибы после дождя — практически раз в пару недель — стали выходить новые модификации, специализированные наборы данных или маленькие изменения для архитектур.
Модель от ученых из Стэнфорда сфокусирована только на бактериальных данных. Хотя у нас есть специализированные версии для растений и дрожжей, именно бактериальных данных очень мало — мы в основном нацелены на человека и других животных. Разница с моделью InstaDeep заключается в том, что мы способны анализировать гораздо более длинные последовательности.
— Вы говорите о длине контекстного окна модели? Почему длина последовательностей так важна?
— Проблема всех языковых моделей заключается в том, что геномы огромны. ИИ-инструменты не в состоянии переварить их целиком и так или иначе изучают геном по кусочкам. В литературе есть длинные тексты, в которых каждая часть содержания очень важна для связности, а есть тексты наподобие сборника рассказов, в них каждое произведение независимо от другого. Так же и в ДНК: есть очень локальные процессы, а есть ситуации, когда убрать половину генома и понять, что происходит, просто невозможно.
Проект GENA с самого начала ведется группой «Биоинформатика» AIRI под руководством Ольги Кардымон, я и моя группа в ИЦиГ СО РАН отвечаем за экспертизу в генетике. Проблема памяти моделей находится в плоскости компьютерных наук, и здесь не обошлось без междисциплинарной коллаборации. Ранее коллеги из другой научной группы AIRI, МФТИ и Лондонского института математики разработали технологию рекуррентной памяти для анализа языка и иных текстов (RMT). Она позволяет моделям запоминать информацию из одних участков последовательности и использовать ее при анализе других участков. Они подключились к проекту и помогли интегрировать механизм рекуррентной памяти в GENA. Это на самом деле очень важная фишка нашей работы, и на ряде тестов мы подтверждаем, что такой нет ни у кого из конкурентов. Без обращения к механизму памяти модель принимает на вход до 36 000 пар оснований, а после как бы «читает» эти кусочки по 36 тыс., чтобы с помощью почерпнутых из них знаний анализировать еще более длинные последовательности.
— Вы упомянули слово «семейство». Это значит, что есть несколько разных GENA? Сколько их и чем они друг от друга отличаются?
— Поскольку мы фактически были первопроходцами в этом направлении, перед нами раз за разом вставало очень много технических и архитектурных вопросов о том, как такой инструмент должен быть построен. Конечно, мы ориентировались на принципы, которые используются в анализе языка (GPT-подобные модели), но понимали, что сравнение ДНК с текстом — только аналогия и нужно учитывать все отличительные особенности. Мы сделали много разных вариантов моделей, протестировали, какие из них работают лучше всего, и поняли, что в зависимости от задачи эти показатели варьируются.
Самый показательный пример — разнообразие видов. Вы можете взять и заставить модель выучить геном человека, можете предложить ей выучить геномы разных животных, можете выучить геномы растений, можете вообще все живое попытаться загрузить в эту модель, и пусть искусственный интеллект разбирается сам, в чем различия между человеком, животными и растениями. Но такая вот совсем-совсем универсальная модель работает хуже, чем если мы берем какую-то группу близких видов и даем модели как следует разобраться, что в этой группе происходит. В то же время, если мы возьмем только один организм, этой информации будет недостаточно. Нужно соблюсти баланс между количеством данных и их разнообразием.
Именно поэтому мы выпустили несколько модификаций: для работы с геномами животных, растений, дрожжей, которые можно использовать в зависимости от задачи — агрозадачи или биотех-задачи. Например, на дрожжах часто делают биопродукцию важных молекул или белков. Если же речь идет об изучении заболевания, то надо брать модель, обученную на человеческом геноме.
— Если говорить о практическом применении, какие задачи наиболее интересны лично вам?
— Аннотация геномов, разметка геномов. Взять какой-то важный сельскохозяйственный вид и расшифровать его геном, не просто написать сочетание букв, а определить хотя бы, где в этом геноме находятся гены. Сейчас такая задача практически нерешаема без дорогих и долгих экспериментов, и GENA тоже пока еще не справляется с ней идеально, но мы активно работаем над тем, чтобы получилось.
Вторая задача, над которой мы активно работаем сейчас,— это задача предсказания активности генов в разных клетках разных организмов.
— Для чего это нужно?
— Например, для того, чтобы более правильно классифицировать, понимать, что за клетки перед нами находятся и какие гены в них активны. А это, соответственно, важная задача для фармакологии. Представьте себе процесс таргетирования раковой опухоли. Берется опухоль, и проводится анализ активности генов в ней, который позволяет понять, что это вообще за опухоль, из каких клеток она состоит, какие сигнальные пути в этих клетках работают, как можно повлиять на эту опухоль для того, чтобы ее наиболее специфично уничтожить, минимально затрагивая остальные клетки организма. Одна из задач, которую мы решаем с помощью GENA,— это такое понимание регуляции генов, активности генов и классификация клеток на основе активности генов.
— Есть ли уже какие-то конкретные примеры, когда метод был успешно применен биологами?
— Много коллег успели процитировать работу, со многими мы познакомились, чтобы обсудить то, как GENA может им помочь. У нас прямо сейчас в разработке находится несколько прикладных задач. Однако важно понимать, что, во-первых, такие задачи не решаются за пару-тройку месяцев и даже за один год, а во-вторых, мы опубликовали финальную версию статьи о нашем инструменте несколько недель назад.
Биоинформатика — это суперновые вещи, которые обязательно требуют экспериментальной проверки. Собственно говоря, свои решения мы отдаем партнерам-экспериментаторам для верификации в лаборатории. И пока это не клинические испытания или что-то вроде того. Это стадия преклиники: тестирования на ограниченной выборке, на культурах клеток. Время вывода, как модно говорить в IT, «в продакшен» еще не пришло.
— Какие ограничения текущих возможностей есть у инструмента и какие улучшения планируются в будущих версиях? Или же это все будет понятно только после лабораторной проверки предоставляемых GENA данных?
— Это два параллельных процесса. У таких моделей одно направление развития заключается в поиске эффективных применений и того, как их встраивать в существующие биотехнологические и биомедицинские задачи. Я очень общими словами обрисовываю применимость инструмента, говоря «аннотация генома», «анализ чувствительности к терапии», «поиск новых лекарств». Приходя искать партнеров — например, в фармкомпании,— нужно отвечать на вполне конкретные вопросы. Скажем: «У нас есть уже протокол терапии. На каком из этапов протокола вы можете решать задачу и какую?» Это очень непростые вопросы, ведь перед тем, как на них отвечать, нужно самим разобраться: как и с любой новой технологией, понять, как ее использовать наиболее эффективно. Это большая работа. Мы ее ведем.
Вторая задача, которую параллельно можно и нужно решать,— улучшение качества самих моделей. Об этом сейчас думают все, кто занимается ИИ. Масштабирование, которое хорошо проиллюстрировано на примере анализа естественного языка и бума чат-ботов. Если забыть про красивые заголовки о навороченных технических фишках, по факту внутри остается простой рецепт: больше данных плюс больше вычислений равно более качественный результат. Пока непонятно, насколько хорошо эта логика работает с геномами, и, конечно же, очень хочется попробовать.
Сейчас в модели 300 млн параметров. Цифра сама по себе неспециалисту ни о чем не скажет, но она хорошо понятна в сравнении. В популярных языковых моделях, которые активно обсуждаются по всему миру, десятки миллиардов параметров. На порядки больше, чем то, что мы используем для ДНК. При этом — у меня, наверное, профдеформация — кажется очевидным, что ДНК устроена гораздо сложнее, чем язык человека. Вся область изучения ДНК с помощью языковых моделей сейчас находится на уровне двухлетнего ребенка по сравнению с тем, что творится в анализе естественного языка. А задача-то перед нами стоит гораздо более сложная.
— Тем не менее вы говорите, что инструмент находится в открытом доступе. Как биологи могут найти и запустить его?
— Для тех, кто совсем не умеет запускать модели и не обладает минимальным биоинформационным бэкграундом, есть веб-сервис. Это онлайн-инструмент, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций. У него, конечно, очень урезанный функционал. Мы создали его, чтобы познакомить биологов с нашей предметной областью и дать любому желающему коллеге возможность понять, может ли такое для него оказаться полезным.
Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но для доступа не нужно использовать что-то специально биологическое или какую-то инфраструктуру AIRI. Модели максимально упрощены в использовании, и все необходимое находится в стандартных репозиториях на платформах Hugging Face и GitHub, которыми пользуются разработчики.
— Учитывая стремительный прогресс биоинформатики, какие вызовы в ближайшем будущем будут волновать ученых в первую очередь? Ждать ли сложностей в построении диалога между классической биологией и биоинформатикой?
— Как только мы нащупаем и подтвердим эффективность в практическом применении, биологи очень быстро выработают взаимопонимание. Рынок заставит нас найти общий язык. То же самое случилось с программированием. Лет 30 назад, когда я еще учился в школе, программирование было чем-то изощренным, изыском, было вообще непонятно, насколько оно нужно и кому именно. Сейчас реклама курсов по Python или Java висит на каждом заборе и никого не удивляет.
Если говорить именно о вызовах, то, на мой взгляд, пока еще нет системного подхода к решению проблемы интеграции генерируемых биологами данных. Ответ на подобный вопрос — всегда очень субъективное мнение, но мне кажется так. Чтобы инструменты, которые мы делаем, ИИ-модели стали по-настоящему классными и супермощными, их нужно разрабатывать с использованием огромного количества данных. В идеале вообще всю биологическую информацию, которая генерируется в мире, взять и запихнуть в большую модель. Это будет настоящий прорыв в биологии.
Звучит-то хорошо, но это очень сложно сделать. Каждая лаборатория проводит свои эксперименты. Роботизированные станции секвенирования и других омиксных анализов стали доступными, их можно купить, они стоят в огромном числе научно-исследовательских центров как за рубежом, так и в России. Но какого-то единого «дата-центра» или «мегадатасета», в котором можно было бы все это в хорошо размеченном виде найти, нет. В области анализа языка мы видим аналогичные проблемы. Они частично решены человеческим трудом разметчиков, много было чего сделано и автоматизировано, но золотой пули пока так и не нашли. И это при том, что с текстом может работать очень широкий круг людей, соответственно, разметить большое количество данных проще. Биология требует намного больше узкоспециализированных знаний. Представьте, что я сейчас для какой-то конкретной прикладной биологической задачи пытаюсь собрать набор данных. Целый час я трачу только на то, чтобы разобрать один эксперимент. А их каждый день по всему земному шару проводят несколько тысяч, и это только те, информацию о которых можно легко получить. Кто вообще способен в них вникнуть? Вопрос открытый. Думаю, что умами и силами многих постепенно или будет стандартизирован процесс наработки данных, или будут созданы новые, более универсальные инструменты, которым не нужна хорошая разметка.
Елизавета Певная
- Войдите или зарегистрируйтесь, чтобы отправлять комментарии