Термин «машинное обучение» все больше входит в нашу жизнь. Но, если вдруг, кто еще не знает – он обозначает не курсы по освоению неких механизмов, а методы работы искусственного интеллекта (ИИ), цель которых не прямое решение отдельной задачи, а обучение в процессе применения решений множества сходных задач.
В результате, ИИ «учится» предсказывать результат по входным данным. И чем разнообразнее входные данные, тем проще машине найти закономерности, и тем точнее результат. Очевидно, что эффективность такого подхода особенно заметна при работе с большими массивами данных. Именно там машинное обучение получило наибольшее распространение. Например, поисковые и почтовые системы браузеров, которыми мы пользуемся ежедневно, очень широко внедряют алгоритмы машинного обучения, что помогает предоставить пользователям (нам с вами) нужную информацию. Оно, кстати, не является полным синонимом глубинного обучения или нейросетей. Эти обозначения сейчас тоже популярны, но они являются лишь одной из областей машинного обучения.
Работает это так: сначала вы предоставляете ИИ некоторый массив писем, уже поделенные на категории (спам / не спам), одновременная выделяя критерии, по которым происходило это деление. Система «запоминает» эти критерии и с помощью одних алгоритмов начинает выполнять это деление самостоятельно. А, благодаря другим, работает раз от раза точнее. Иначе говоря, обучается сортировке почты, отсюда и сам термин – машинное обучение.
Эти методы оказались востребованными и в интернет-маркетинге, и в работе систем наблюдения и безопасности, и, конечно же, в научной работе, где рутинная обработка информации очень важна, но отнимает немало времени и сил. Генетика и медицина как раз относятся к научным дисциплинам, где big data играет важную роль, потому представители этих наук относятся к машинному обучению (и возможностям ИИ в целом) с большим вниманием. Об этом, в частности, шла речь на очередной публичной лекции в ИЦиГ, подготовленной Полиной Белокопытовой (НГУ).
Для начала она рассказала о разных подходах в этой области. Существует машинное обучение с учителем и без учителя, которые используются для решения разных типов задач. В первом случае, вы изначально сообщаете ИИ правильный вариант ответа. Это часто используется при создании различных классификаций, когда данные надо разделить по заранее определенным категориям (как в примере со спамом выше). Также удобно решать в рамках этого подхода задачи регрессии. Они схожи с классификацией, но теперь к ним добавляется предсказание неких признаков, например, не просто разделить варианты мутации, но и предсказать вероятность ее летальности и т.п. Вообще, наличие в условиях задачи определение вероятности того или иного исхода, верный признак задачи регрессии.
У второго подхода («без учителя») тоже есть свои приоритетные направления. К ним относятся задачи кластеризации и уменьшения размерности. По своей сути, кластеризация весьма похожа на классификацию, но в ней отсутствуют заранее известные классы. Сформировать их должен сам ИИ в процессе решения задачи (тем самым человек-«учитель» выводится за рамки процесса). Такие задачи часто ставят интернет-магазины для группировки покупателей по потребительскому поведению. А биологи точно также группируют клетки по профилю экспрессии и т.п.
Помимо подходов к обучению, методы машинного обучения делятся по типам. Один из них – нейросети – очень широко используется современными медициной и биологией.
– Как понятно из названия, люди, которые придумали нейросети, вдохновлялись устройством нашего мозга, - отметила Полина Белокопытина.
У человеческого нейрона есть тело, есть множество отростков – дендритов, по которым в него поступает информация, и аксон, через который она уходит. Также и элемента нейросети есть «тело», несколько входов и только один выход. Ключевую роль в его работе играет то, что информация от каждого входа подается со своим «весом».
Далее Полина показала на примере, как это работает. Покупатель приходит в магазин, чтобы приобрести плащ. Перед принятием решения, он начинает спрашивать других людей, нравится ли им его выбор. Но их мнение имеет для покупателя разный «вес», который становится коэффициентом для данной ими оценки плаща. Суммируя оценки с учетом «веса»-коэффициента, покупатель принимает решение. Причем, если в роли «покупателя» выступит элемент нейросети, то этот ответ будет достаточно простым, да (если сумма больше установленного вами порога) или нет.
Нейросеть в целом предназначена для более сложных задач, поэтому имеет более сложную архитектуру, чем просто совокупность отдельных элементов: они распределены в ней по слоям.
Еще один важный момент в процессе машинного обучения – оценка точности предсказаний, которые выдает в результате система. Например, определить (на основе полученных данных) есть у человека онкозаболевание или нет. Для формирования оценки точности прогноза используют специальные метрики – чувствительность и специфичность. Первая показывает, в скольких случаях система правильно предсказала наличие рака у пациента, а вторая – в скольких случаях были верно выделены здоровые люди. Такого рода результаты обычно отображают в форме графика, где при сопоставлении нескольких систем прогнозирования не сложно найти наиболее точную (она располагается дальше всего от биссектрисы в оси координат).
После этого лектор привела несколько примеров применения машинного обучения в современных биомедицинских исследованиях.
Сегодня активно идет процесс создания медицинских диагностических систем, работающих по принципам машинного обучения. В 2011 году был презентован суперкомпьютер IBM Watson. Он решает разные задачи, включая и медицинские. За прошедшие годы в него загрузили более полумиллиона медицинских заключений и массив статей из медицинских журналов. Обработав эту информацию, он уже начал выдавать на ее основе рекомендации по лечению новых пациентов, чьи данные ему предоставляют. Конечно, пока рецепты от суперкомпьютера перепроверяют врачи, но не за горами тот день, когда медицинский ИИ превратится из объекта научной фантастики в обыденность.
Причем, не обязательно речь идет о дорогих клиниках. В этом году был запущен бесплатный и доступный в Интернете сервис, куда вы можете загрузить рентгеновский снимок своей грудной клетки и ИИ с высокой долей вероятности (по словам разработчиков) предскажет, какие патологии могут отображаться на снимке.
Впрочем, повторим, повсеместное распространение таких сервисов потребует определенного времени, как на их совершенствование, так и на изменение сложившихся установок общественного сознания (многие пациенты по-прежнему будут предпочитать общение с врачом-человеком, несмотря на доступность и удобство новых сервисов).
Гораздо быстрее внедрение систем ИИ должно пойти в таких сферах, как разработка лекарств. Уже сейчас определение кандидатов для воздействия на гены-мишени сортируют с помощью ИИ, поскольку речь идет об анализе миллионов возможных вариантов. Это уже использовалось на практике, например, когда требовалось быстро создать лекарство от лихорадки Эбола. Его разработчики взяли 7000 молекул, ранее прошедших испытания на безопасность и использующихся для лечения других болезней. А затем, с помощью нейросети проверили их на компьютерной модели этой болезни. И результат был найден намного быстрее, чем традиционными методами (сейчас путь лекарства на рынок может занимать до 15 лет, но использование нейросетей позволит заметно сократить этот срок).
Трудно переоценить роль нейросетей в анализе необъятных массивов информации, которые генерируются сегодня работами в области генетики и молекулярной биологии. Они становятся хорошим способом не «утонуть» в этом «океане» биологической big data. Не зря биоинформатику считают одной из самых динамично развивающихся дисциплин.
Сергей Исаев
Иллюстрации из презентации Полины Белокопытиной
- Войдите или зарегистрируйтесь, чтобы отправлять комментарии