Техзадание для суперкомпьютера

На очередном заседании Клуба межнаучных контактов обсудили, какие исследования можно будет вести на суперкомпьютере, который предполагается построить в Академгородке.

Для начала немного фактов, помогающих понять, почему этот вопрос столь актуален для развития Новосибирского научного центра. В мировом ТОР-500 суперкомпьютеров Россия занимает десятое место и представлена семью позициями. Это всего лишь 1,4% от суммарного их числа. Все они принадлежат Яндексу, Сбербанку, МГУ и МТС. Наиболее высокие (относительно, конечно, начиная с 19-го места) позиции в рейтинге занимают машины Яндекса. Суперкомпьютер Сбербанка – на 43 месте, суперкомпьютер «Ломоносов», принадлежащий МГУ – на 241-м. Все работающие в России суперкомпьютеры расположены в центральной части страны и в первую очередь обслуживают своих держателей. В Сибири суперкомпьютеров нет, вычислительных мощностей имеющегося в распоряжении СКЦ СО РАН, увы, не достаточно, чтобы претендовать на этот статус. А вот задач, решить которые с использованием обычных компьютеров, без приставки «супер» нельзя – у наших ученых хватает. О некоторых из них и рассказывали докладчики на очередном заседании Клуба.

Сам проект строительства суперкомпьютера в Академгородке существует уже несколько лет, точнее изначально было два конкурирующих между собой проектов – СКЦ ВВОД (лоббируемый ФИЦ Информационных и вычислительных технологий) и «Лаврентьев», который продвигал Новосибирский государственный университет. В конце прошлого года именно «Лаврентьев» стал проектом, которому была обещана федеральная поддержка. Правда, озвучивались разные условия, в частности, рассматривался вариант создания суперкомпьютера на базе Вычислительного центра СО РАН, а институты, располагавшиеся в нем, предлагалось ввести в структуру НГУ. Последнее вызвало резкое неприятие со стороны самих институтов и на сегодня организационная часть проекта находится в несколько подвисшем положении.

Не добавляют оптимизма и потенциальные сложности с приобретением импортных компонентов для будущего суперкомпьютера (в отличие от установки СКИФ, здесь обойтись силами исключительно российских производителей не получится, наша промышленность пока не готова решать такие задачи в полном объеме).

Как отметил один из участников заседания, пока формально проект суперкомпьютера не попал под санкции, но, если сейчас попытаться закупить нужное оборудование, эта ситуация может быстро измениться. И все надежды только на некую международную разрядку к тому времени, когда откладывать закупку импортного оборудования откладывать уже не получится.

Правда, до этой стадии проекту еще надо дойти, решив существующие разногласия в вопросах его организационного статуса и избежав «заморозки» финансирования в условиях разворачивающегося экономического кризиса. Впрочем, как уже говорилось, не это было главной темой заседания Клуба, а обсуждение тех задач, которые можно будет решать в случае успешной реализации проекта. Конечно, первыми на ум приходят вычисления для рабочих станций другого мега-проекта – Сибирского кольцевого источника фотонов (СКИФ). Но о потребности СКИФа в суперкомпьютере говорилось уже много, поэтому более интересны были и другие возможные направления работы.

Одно из них – хранение, обработка и анализ больших данных (big data), полученных в ходе исследований генетиков. Этому было посвящено выступление научного руководителя ИЦиГ СО РАН академика РАН Николая Колчанова.

Ученый напомнил, что что сегодня темпы роста объема генетических данных на порядок опережают возможности компьютерного анализа. Не хватает мощностей, эффективных скоростных алгоритмов обработки и методов анализа больших данных. Кроме того, для работы с генными сетями сложность генетического секвенирования увеличивается на порядок.

«Уже сейчас в базах порядка 70 тысяч генных сетей человека, животных, растений и микроорганизмов, которые содержат описание десятков миллионов молекулярных событий. И их количество стремительно пополняется», – подытожил он.

Решить эту проблему можно лишь с помощью интеллектуальных методов автоматического извлечения знаний, основанные на машинном обучении и искусственном интеллекте. В мире создано около десятка таких систем, одна из них разрабатывается и в ИЦиГ СО РАН. Она работает с десятками миллионов источников информации, в том числе фотографических баз данных и патентов. Если же говорить о российской генетике в целом, то перед ней стоят два глобальных вызова: создание больших баз геномных данных и центров суперкомпьютерных вычислений для работы с ними. Академик выразил надежду, что частичным решением станет создание суперкомпьютерного центра «Лаврентьев» с центром компетенции по высокопроизводительным вычислениям и искусственному интеллекту.

Заместитель директора Института ядерной физики (ИЯФ) СО РАН, д.ф.-м.н. Иван Логашенко рассказал о том, для чего нужны суперкомпьютерные мощности ученым, работающим в области физики высоких энергий. Исследования в этой области требуют высокой точности, а это невозможно сделать без увеличения статистической базы, что только на действующих площадках ИЯФ СО РАН дает сотни террабайт данных в год.

«Но это только наши коллайдеры, а ведь мы участвуем во многих совместных проектах, как международных, так и российских. И часто возможности для нашего участия ограничены отсутствием собственных вычислительных ресурсов в достаточном объеме», - напомнил ученый.

Одним из самых масштабных российских проектов является строительство электрон-позитронного коллайдера Супер С-тау фабрика. Этот проект на протяжении ряда лет разрабатывался учеными ИЯФ СО РАН. И хотя осенью прошлого года было решено строить его в Сарове на базе Национального центра физики и математики (НЦФМ), ИЯФ остается лидирующей организацией среди участников проекта.

Ожидается, что этот коллайдер даст исследователям 200-300 петабайт данных в течение десяти лет. И их надо будет где-то обрабатывать и анализировать. Причем, главную роль здесь будет играть даже не объем для хранения данных, а именно вычислительные мощности (что и отличает суперкомпьютеры), по расчетам ученых речь идет о диапазоне 1-3 петафлопс. «И хотя физически установка будет находиться в Сарове, мозговой центр остается здесь, поэтому суперкомпьютер становится очевидной производственной необходимостью для его полноценной работы», - подчеркнул Иван Логашенко.

Понятно, что упомянутыми двумя направлениями потенциальный «фронт работ» для суперкомпьютера (если он появится в Академгородке) не исчерпывается. Участники заседания Клуба говорили об исследованиях в области водородной энергетики, аэродинамики (в частности, создании новой авиационной и ракетной техники), изучении и моделировании климатических процессов в Арктике). Везде требуется обрабатывать объемы данных, превосходящие собственные возможности научных институтов. До сегодняшнего дня часто ученые решали эту проблему с помощью международного партнерства. Но в условиях нового «железного занавеса», который стремительно опускается между Россией и Западом, возможности в данном направлении стремительно съеживаются. И создание собственного суперкомпьютерного центра становится для новосибирской (и российской в целом) науки вопросом выживания и дальнейшего развития.

Сергей Исаев