ChatGPT, DeepSeek, что дальше?

Последние пару лет большие языковые модели (LLM) стали, пожалуй, самым «хайповым» направлением технологий искусственного интеллекта. Сначала ChatGPT регулярно демонстрировал свои успехи в замене рутинного человеческого труда в самых разных сферах. А совсем недавно китайцы представили свой продукт – DeepSeek, который некоторые СМИ поспешили назвать «триумфальным прорывом», принесшим Китаю победу в этой технологической гонке. Правда, почти сразу была озвучена и другая точка зрения, обвиняющая разработчиков китайской LLM в манипуляциях параметрами и чуть ли не плагиате. Разобраться в ситуации (и заодно понять, какие перспективы на этом рынке у российского ИТ-сектора) нам помог ведущий специалист Центра искусственного интеллекта Новосибирского государственного университета (ЦИИ НГУ) Антон Колонин.

– Скажите, на Ваш взгляд, в истории с DeepSeek больше пиара или это настоящий качественный прорыв в данной области технологий?

– Помните, как в свое время разворачивалась космическая гонка? СССР запустил первый спутник, потом первого космонавта, а потом США отправили первого человека на поверхность Луны. И сейчас в мире история с DeepSeek подается, как «китайцы оказались на Луне». Ситуация, действительно, в чем-то похожа, но в данном случае я не вижу какого-то качественного прорыва, как это было в космонавтике (от человека на орбите Земли к человеку на Луне).

Мы видим, что китайцы много лет гнались за американцами и, наконец, по каким-то параметрам их продукт обогнал американский. Причем, насколько обогнали – остается вопросом дискуссионным. Потому что сравнение с ChatGPT по разным метрикам дают разные результаты и не все в пользу китайцев. Есть утверждения, что низкая стоимость разработки во многом обеспечена, что в обучении китайской LLM участвовал тот же ChatGPT, что и обеспечило экономию средств.

Но все равно можно резюмировать, китайцы сделали самостоятельный продукт, не уступающий, как минимум, американскому – и они молодцы, даже если их модель не явилась революционным прорывом, она пример того, что американское лидерство в области искусственного интеллекта больше не единоличное.

– Что, в таком случае, можно будет считать революционным, качественным скачком в этом направлении?

– Дать короткий ответ, который бы устроил всех – невозможно, слишком много моментов, по которым в экспертной среде до сих пор нет единого мнения. Вплоть до того, является ли нейросеть искусственным интеллектом или это просто некая статистическая машина. А на мой личный взгляд, качественным скачком можно будет назвать решение одной из двух задач. Первый – существенное (на пару порядков) снижение затрат на оборудование и энергопотребление для создания оригинальной LLM. Сейчас для реализации такого проекта требуется вычислительный кластер, который могут позволить себе только государства или крупные корпорации. А вот когда сделать такую модель можно будет на оборудовании, которое по силам купить среднего масштаба компании – это будет качественный прорыв.

Это может стать возможным либо благодаря некой революции в электронике, когда появятся процессоры и память нового типа, более мощные и компактные. Либо должна качественно измениться вычислительная архитектура, стать менее требовательной в плане ресурсов памяти и энергии.

И вторая задача, решение которой обеспечит именно качественный скачок – добиться того, чтобы переобучение и адаптацию модели к новым задачам и условиям уходило не несколько месяцев, как сейчас, а если не часы, то хотя бы дни.

Пока ни в одном из двух этих направлений нет четкого понимания, как добиться нужного результата. Есть определенные исследования в области нейроморфных вычислений, так называемые импульсные нейронные сети. Есть разработки, в том числе в ЦИИ НГУ, в области логико-вероятностного искусственного интеллекта. Но пока никто не смог продемонстрировать убедительных результатов.

– Но уже сегодня многие относительно небольшие компании могут брать сделанную крупной корпорацией нейросеть и обучать ее под свои задачи, не создавая свою модель, что им не по карману. В чем отличие?

– Отличие в количестве параметров, которые нейросеть учитывает и применяет для своей работы. В последние годы удалось убедительно показать на практике, что именно количество параметров обеспечивает качество результатов работы таких программ. Чем больше ячеек памяти вы ей дадите, чтобы она могла строить свою модель, тем умнее, при прочих равных, эта модель получится. И если вы хотите, чтобы у вашей большой языковой модели качество ответов было близким к человеческому, то вы должны заложить в нее неимоверное количество этих параметров. Сегодня в нашей стране просто нет компьютера, на котором хватило бы вычислительной мощности и памяти для создания и размещения системы, аналогичной ChatGPT.

Здесь важно помнить, что для создания и даже последующего обучения модели нужно на порядки больше ресурсов, чем для ее дальнейшего использования. Потом, когда она обучена ее можно упаковать и передать заказчику, которому для ее использования уже не потребуется суперкомпьютер. Но когда мы говорим о стадии разработки, именно вычислительные ресурсы становятся краеугольным камнем, ограничивающим возможности проекта.

Те проекты, о которых говорите вы – направлены на решение узких, специфических задач и системы обучают только этому. Проще говоря, система «электронной регистратуры», сделанная для какой-то клиники, не сможет написать программный код, текст путеводителя или даже поздравление с днем рождения. Либо это будет универсальная система, но качество ее ответов будет заметно ниже того, что обеспечивают ChatGPT и DeepSeek.

– Каковы позиции российских разработчиков в этой области? И есть ли у нас шансы войти в число мировых лидеров вслед за американцами и китайцами?

–  Ситуация примерно следующая: большинство российских разработчиков, которые хотят и могут чего-то добиться в этой сфере, достаточно быстро, так или иначе, оказываются вовлеченными в работу западных компаний. Если же разработчик выбирает остаться в России, то он так же довольно быстро сталкивается с дефицитом как поддержанных инвестициями проектов, где он мог бы реализовывать свои идеи, так и собственных ресурсов (оборудования) для их воплощения.

У нас нет ни такого цветущего рынка стартапов, связанных с ИИ вообще и с LLM в частности, как в США, ни многолетней государственной программы с масштабным финансированием, последовательной подготовкой кадров и инфраструктуры, с четко прописанной целью – «догнать и перегнать Америку» - как в Китае.

У нас пока есть модели от Сбера и Яндекса, в которые вложены немалые ресурсы. Но от экспертов, с которыми я общался, я слышал, что они все же уступают топовым мировым моделям по своим параметрам, качеству. И это связано, в том числе, с недостатком вычислительных и иных ресурсов.

– А есть ли смысл тогда нам вообще лезть в эту гонку или «поезд ушел» окончательно?

– Такие настроения есть, я знаю людей, которые перестали вкладываться в разработку каких-то своих продуктов с надеждой, что через год-два ChatGPT предоставит им готовое решение. Но, с другой стороны, сегодня все больше аргументов в пользу того, что за искусственным интеллектом будущее. И тот, кто овладеет этими технологиями в полной мере, получит в этом будущем более выгодные позиции. А это уже само по себе является достаточной причиной для участия России в подобной гонке.

Что касается «безнадежного отставания», давайте вспомним, что из себя представлял Китай полвека и даже тридцать лет назад. Он тогда совсем не претендовал на роль мирового технологического лидера, максимум – на источник дешевой рабочей силы и других ресурсов для производственных площадок западных компаний.

Так что сама по себе задача решаемая. Можно же не пытаться слепо воспроизводить то, что кем-то уже сделано, а работать над технологиями, которые только появятся на следующем этапе развития искусственного интеллекта. Собственно, китайцы и пробуют идти этим путем, они сделали не клон ChatGPT, а самостоятельный продукт, менее ресурсоемкий при сопоставимом качестве, в чем его очевидное преимущество. У нас есть хорошая научная база, есть определенные компетенции, есть опыт решения подобных задач в прошлом.

Проблема в том, что у нас долгое время уже делается крайне мало для ее практического решения и часто все сводится к благим пожеланиям и громким декларациям. Начнем работать всерьез и вскоре наше отставание окажется не таким уж непреодолимым. Да и история показывает, что ничье лидерство не бывает вечным. Все зависит от нас. Продолжим дальше заниматься только разговорами и разработкой серых схем по приобретению продуктов, сделанных не у нас – так и останемся в числе отстающих.

Сергей Исаев