С Big Data всё не просто

Сибирские учёные комментируют высказывания об информационных системах и центрах для работы с большими научными данными, прозвучавшие на последнем заседании Совета по науке и образованию при Президенте РФ.

– Глава РАН академик Александр Михайлович Сергеев заострил внимание на том, что Академия не может в полной мере выполнять возложенные на неё задачи экспертизы и прогнозирования без высокопроизводительных систем хранения и обработки информации, а ректор Московского госуниверситета им. М.В. Ломоносова Виктор Антонович Садовничий предложил создать такую систему единой, в национальном масштабе, на базе суперкомпьютера «Ломоносов». Эта проблема обсуждается не впервые, учеными разных регионов России, в том числе в «Науке в Сибири».

Действительно, работа с большими данными – это мировой тренд, который нельзя игнорировать. Но с Big Data всё не просто: прежде всего в плане сбора научных данных и поступления информации в открытый доступ. Центр информационных технологий и систем (ЦИТиС), который упоминал А.М. Сергеев, собирает материалы в виде научных отчётов и проектов научных исследований. Это документы, которые отображают – в выборочном и видоизмененном виде – ничтожно малую часть данных, которые генерируются или используются непосредственно в ходе исследований. Зачастую учёному не доступна исходная информация, полученная его коллегой буквально за стенкой, в соседней лаборатории. Эти ограничения сложились исторически, они порождены объективными условиями. 

Как мы прекрасно знаем, данные, появившиеся в ходе текущей работы, служат основой для публикаций, для чего проходят определённую селекцию. В статью попадает только то, что наиболее наглядно иллюстрирует полученный научный результат – новое явление, эффект, закономерность и так далее. Владение исходными данными позволяет, при этом, сохранять научный приоритет, что сдерживает их публикацию. Поэтому нет и эффективно работающих инструментов «обобществления» таких данных. В наиболее развитых странах ситуация начинает меняться, и первичная информация в форме наборов данных (DataSet) становится таким же общедоступным научным материалом для анализа, как и формализованная в виде статей, монографий, отчётов. Разумеется, речь идёт о стопроцентно открытых, гражданских исследованиях, а не «спецтематиках», но их результаты достаточно просто отделить. Например, на одном космическом аппарате данные с одного сенсора могут использоваться в открытых научных исследованиях, другие – ни при каких обстоятельствах, это устанавливается соответствующими ведомствами. Кроме того, на пути всей информации к открытому доступу стоит экспертиза. Однако нужно учесть, что в условиях экспоненциального роста объёмов научной информации реально качественная экспертиза становится осуществима только с использованием интеллектуальных компьютерных систем.

Для того, чтобы мы начали формировать массивы действительно больших научных данных, в научной повседневности необходима настоящая, без преувеличения, революция.

В идеале все инструменты научной работы – от установки класса мегасайнс до обычного электронного микроскопа или томографа – должны в автоматическом режиме направлять все получаемые на них данные в общие хранилища с общим (или «почти общим») доступом.

Это же касается областей знания, напрямую не связанных с приборной базой: в гуманитарной сфере, например, все новые данные могут немедленно оцифровываться, будь то археологические находки или произведения фольклора. Требуется соответствующая трансформация и действующей системы организации науки. Но только административными мерами вопрос управления научными данными, их систематического сбора и обобществления не решить, главные изменения должны произойти на уровне личности исследователя, его мотиваций и стереотипов поведения.

Впрочем, необходимые перемены могут происходить поэтапно. Так или иначе, через какое-то время идеология общедоступности большинства первичных научных данных должна воплотиться в реальность. В контексте этой, пока что воображаемой, реальности и следует рассматривать вопрос степени централизации систем работы с Big Data, поднятые Виктором Садовничим и Александром Сергеевым. Последний ссылался на опыт Японии – страны во всех смыслах компактной, и являющейся технологическим лидером, в том числе в области телекоммуникаций. В России высший уровень централизации – например, привязывающий всё и вся к «Ломоносову» – трудно осуществим и малоэффективен.

Буквально на днях состоялось первое заседание координационного совета про проекту Сибирского национального центра высокопроизводительной обработки и хранения данных (СНЦ ВВОД) в рамках «Академгородка 2.0». Был поднят вопрос об эффективности взаимодействия с ресурсами Москвы для обеспечения вычислений и хранения научных данных – и получил отрицательную оценку минимум по двум причинам. Во-первых, за эти ресурсы настолько высока конкуренция (прежде всего в центральной России), что поневоле вспоминаются давние «очереди на машинное время». Второе, что сильно мешает – ограниченность чисто технических возможностей.

Например, проектируемая Институтом ядерной физики им. Г.И.Будкера СО РАН С-тау фабрика может генерировать до 9 гигабайт данных в секунду, что требует скорости передачи около 100 гигабит. Стогигабитных каналов в научной инфраструктуре России просто нет. Здесь, в новосибирском Академгородке, мы только планируем создать локальную сеть с такой пропускной способностью, ориентируясь на перспективу «2.0». У операторов дальней связи есть мощные каналы, но их использование требует серьёзных денег: канал ёмкостью 10 гигабит стоит порядка 500 000 рублей в месяц, а 100 гигабит будут стоить нелинейно дороже, так как эта пропускная способность уже на грани технологических возможностей операторов.

Наконец, на дальних расстояниях нарастают и другие технические проблемы, например, большие сетевые задержки передачи пакетов данных. Они возникают не столько по чисто географической причине, сколько за счёт активного оборудования между точками передачи и приёма (в нашем случае Новосибирском и Москвой).

Чем протяжённей дистанция, тем больше на ней единиц такого оборудования, каждая из которых увеличивает общую задержку.

Типичная сетевая задержка между нашими городами колеблется в диапазоне 50-100 миллисекунд, тогда как внутри сетей суперкомпьютерных и дата-центров она составляет микросекунды. Эти задержки мешают насытить даже ёмкие каналы, накладывая ограничения на реальную скорость передачи данных, в итоге и по сей день может наблюдаться ситуация, когда человек с чемоданом жёстких дисков летит в Москву, на тот же «Ломоносов», чтобы обсчитать свои данные.

Заметим, что всё вышесказанное относится к реалиям сегодняшнего дня, когда в общем (а также частично ограниченном) доступе находится малая толика данных, генерируемых всей российской наукой – академической, вузовской, отраслевой и прочей. Если же начнутся перемены, если объём размещаемой информации будет нарастать, нам не обойтись без региональных и макрорегиональных центров работы с Big Data, одним из которых должен стать СНЦ ВВОД.

Андрей Юрченко, кандидат физико-математических наук, заместитель директора Института вычислительных технологий СО РАН