Отдайтесь большой цифре

Большим данным (Big Data) обещают светлое будущее в самых разных областях человеческой деятельности. Пока же реальную выгоду из работы с ними научились извлекать банки, ритейл и телеком.

На протяжении всей истории человечества информация была дефицитом и ценностью. Однако последние десятилетия заставляют менять отношение к ней. Данные накапливаются эксабайтами (1018 байт), охватывая все: от частоты пульса пользователей «умных» браслетов до снимков удаленных галактик, от расхода воды в каждой квартире до параметров ядерных реакторов. Согласно оценкам компании Cisco, к концу 2014 года только ежемесячный мобильный трафик данных в мире составил 2,5 эксабайт, к 2019-му он достигнет 24,3 эксабайт в месяц, а число подключенных мобильных устройств превысит 10 млрд единиц. На Facebook ежечасно загружается более 10 млн фотографий. На YouTube каждую секунду загружается более часа видео. По прогнозам IDC, к 2020 году общий объем цифровых данных достигнет 40 зеттабайт. Для понимания масштабов: если записать 40 зеттабайт (40*1021 байт) данных на самые емкие современные диски Blue-ray, суммарный вес дисков без упаковки будет равен весу 424 авианосцев. При этом используется лишь менее 3% из 23% потенциально полезных данных.

Тема перспективности анализа Big Data на слуху уже шесть-семь лет и успела поднадоесть. Однако в огромном количестве публикаций, рассказывающих о светлом будущем больших данных, практически нет реальных примеров внедрений. Как с изрядной долей самоиронии подметил главный технический директор корпорации Teradata Стивен Бробст, «Big Data — как секс в старших классах: все о нем говорят, но мало кто пробовал, а те, кто попробовал, плохо поняли, что это».

Мы все же попытались найти российские примеры реализации работы с Big Data. Прямо скажем, это было непросто. Достичь результатов на практике и внедрить решения оказывается куда сложнее, чем это выглядит в рекламных презентациях. Признаваться в неудачах никто не хочет, успешные примеры тем более засекречиваются — даже намек на сделанное позволит конкурентам повторить этот путь и уничтожить преимущество. Консультанты лишь с горестью разводят руками — они были бы счастливы похвастаться достижениями, да кто ж позволит.

Понимать не обязательно

Общим местом стали упоминания, что большие данные — лишь маркетинговый ход. Накопленные данные росли в объеме на протяжении всего развития современной цивилизации, и их анализом занимались издавна. Стремительное снижение стоимости хранения и обработки лишь делает работу с данными все более доступной.

Однако количественные изменения начинают переходить в качественные. Отличие первое: данные становятся все детальнее и персонифицированнее и собираются у все большего числа игроков. Если раньше анализ велся преимущественно на макроуровне, то сейчас даже владелец небольшой сети магазинов может отслеживать и анализировать действия своих покупателей и монетизировать результаты этого изучения. Второе отличие — качественное: отказ от проверки простых гипотез о причинно-следственных взаимосвязях в пользу более сложных математических моделей. То, что раньше делалось «вручную», теперь начинают доверять системам машинного обучения.

Чтобы показать разницу, разберем методы анализа. Из имеющихся данных с известными «ответами» делаются две выборки: обучающая и контрольная. К первой подбираются функции, максимально точно отражающие зависимость искомого показателя от имеющихся данных. Обычно при этом используются логистическая регрессия, случайные «леса», бустинг деревьев решений, байесовские алгоритмы. Подобрав конкретные параметры в семействе алгоритмов, получаем искомую модель.

Затем производится проверка предсказательной способности полученной модели на контрольной выборке. Это позволяет избежать «переобучения» — излишней подгонки модели под случайные особенности обучающей выборки, отсутствующие в генеральной совокупности. На ней полученная модель используется в рабочем режиме.

В качестве примера, где в основе анализа лежит здравый смысл и математика «средней степени тяжести», можно привести задание, предложенное на открытом конкурсе компаниями SAS и «Алгомост». Участникам предлагалась реальная база клиентов Промсвязьбанка с просроченными кредитами. На основании трех десятков стандартных критериев (размер кредита, остаток задолженности, возраст, пол, место проживания заемщика и т. д.) необходимо было составить модель, предсказывающую, вернет ли должник кредит, а следовательно, стоит ли на него тратить усилия коллекторов.

Для начала на обучающей выборке участниками проверялись очевидные закономерности: между продолжительностью просрочки, величиной остатка кредита, размером ставки и вероятностью непогашения кредита имеется прямая зависимость. А, например, наличие поручителей и зрелый возраст заемщика повышают вероятность возращения долга.

После этого выделяются признаки, формирующие подгруппы, «живущие по своим законам». Например, смерть заемщика резко повышает риск невозврата при любых других параметрах. Уменьшение размера остатка положительно влияет на вероятность возврата только до некоторого значения, после которого шансы на возврат резко падают. Можно предположить, что коллекторы не заинтересованы тратить время на задолженности в 1–2 тыс. рублей. Женщины платят чаще, чем мужчины; города в зависимости от региона делятся на благополучные и не очень, в деревне вне зависимости от региона не платят одинаково. После этого для каждой группы подбираются функции, наиболее точно связывающие вероятность погашения со значимыми параметрами. Совокупность этих функций образует модель, тестируемую на контрольной выборке и, в случае успеха, используемую в рабочем режиме на генеральной совокупности.

Альтернативой здравому смыслу и проверке возможных взаимосвязей вручную является машинное обучение: автоматический перебор различных вариантов и нахождение наиболее значимых корреляций. Подобный метод может найти зависимости неочевидные, а то и просто поразительные для человека.

Технологии машинного обучения ищут и частицы на Большом адронном коллайдере, и налоговых «уклонистов» Технология компании «Яндекс» «Матрикснет» способна строить формулы с десятками тысяч коэффициентов. Она используется и для оптимизации поиска в «Яндексе», и для поиска по событиям эксперимента LHCb на Большом адронном коллайдере, и для анализа больших данных. В недавно завершенном проекте Yandex Data Factory (YDF), выполнявшемся для одного из крупнейших розничных банков России, стояла задача повысить доходность вторичных продаж, предложив каждому клиенту персонализированное предложение наиболее интересных для него продуктов. Также предстояло выяснить, какой именно способ донесения информации является наиболее эффективным для каждого клиента: обычная почта, e-mail, СМС или звонок из колл-центра.

«Для решения задачи мы взяли набор данных о нескольких миллионах клиентов банка, их кредитную историю, историю сотрудничества с банком, данные об уже приобретенных банковских продуктах, о поле, возрасте, семейном положении и множество другой информации. На основе этого с помощью технологии “Матрикснет” мы обучили предсказательную модель, которая определяла вероятность подключения клиента исходя из его “исторической” и персональной информации к той или иной услуге банка. Потом мы применили эту модель к текущим данным банка, научив ее с высокой вероятностью рекомендовать именно то, что хочет клиент. И потом применили к полугодовым данным, отранжировав полученные рекомендации с учетом вероятности подключения к продукту и его прибыльности. Наша аналитика позволила банку на 13 процентов улучшить рост продаж по сравнению с тем методом upsale, который банк использовал до этого», — рассказывает Михаил Левин, руководитель службы анализа больших данных YDF.

Результатом работы системы машинного обучения является «черный ящик» — сложная система функций, не только не раскрывающая причинно-следственные связи, но и не показывающая даже логические соотношения используемых в анализе величин. Это связано с тем, что чаще всего в задачах Big Data используют нейросетевые методы, которые плохо интерпретируемы. «В наших проектах мы не устанавливаем взаимосвязей и их не знаем. Особенность машинного обучения и его ценность состоит как раз в том, что для успешного построения модели не требуется понимать, что с чем связано. В противном случае человек всегда бы решал такие задачи лучше. Мы готовы перевести формулы на язык человеческой логики по просьбе клиента, но это отдельная большая работа», — объясняет Михаил Левин. Игорь Толстов, начальник отдела кредитных стратегий департамента розничных рисков Промсвязьбанка, признался, что в момент его прихода в отдел 90% сотрудников были экономисты и лишь 10% — математики; сейчас соотношения обратное.

Мозг на протяжении сотен миллионов лет формировался как система анализа окружающего мира. Мозг человека как социального животного гипертрофирован, развит прежде всего для анализа поведения окружающих особей (кстати, отсюда непреодолимая любовь к сплетням и мыльным операм). Но сеть из нескольких серверов уже способна показать, что наше поведение куда более предсказуемо, чем кажется самому совершенному органу познания, сотворенному эволюцией.

Безусловно, и в первом случае мы получаем подтверждение не причинно-следственных связей, а лишь наличия корреляций. Но при этом хотя бы можем высказывать гипотезы. Например, значимая корреляция между уровнем образования и уровнем доходов еще не говорит о том, что причиной чего является, но может быть интуитивно предсказана. Во втором случае алгоритм обучения задается людьми и корректируется под решаемую задачу. Однако чем дальше, тем больше в принятии решений нам придется жертвовать пониманием ради эффективности.

Даже в такой интимной сфере, как выбор сексуального партнера, уже активно внедряются методы математического анализа. «Вторые половинки» подбираются на основе генетического анализа и психологического портрета. Ничего фантастического в этом нет, а с отработкой методов гормонального управления человеком (мышей уже научились влюблять в «первого встречного») и программирования эмоций, в том числе прямой стимуляции мозга, поиск личного счастья наконец-то станет не сложнее, чем выбор других сексуальных игрушек.

Пока что полагаться на математические методы непривычно. Например, готовы ли вы принять диагноз и лечение, основывающиеся не на понимании этиологии и патогенеза, а на корреляции? Вопрос не праздный: уже давно ведется анализ связей отдельных генов с заболеваниями, и найденные зависимости не всегда подкрепляются пониманием механизмов развития патологий. Актриса Анджелина Джоли удалила себе обе груди после того, как у нее был обнаружен ген BRCA1, ассоциируемый с высокой вероятностью рака молочной железы. И если в отношении этого гена есть понимание механизма его действия, то во множестве других случаев можно говорить лишь о статистической зависимости.

Другой особенностью является готовность жертвовать точностью в отношении отдельных объектов наблюдения ради возможности работы с неупорядоченными и неполными данными, что позволяет находить новые закономерности в больших совокупностях. В случае оценки платежеспособности одного клиента можно уточнить, перепроверить и запросить дополнительные сведения. При скоринге сотен тысяч потенциальных клиентов и необходимости дать ответ в течение минут приходится принимать решения с более высокой вероятностью ошибки. В банке это привычно, но представьте, что в дождливые осенние сумерки на вас несется автопилотируемый автомобиль, система управления которого пытается сопоставить смутный образ на дороге с базой данных и понять, человек это или лишь дымка мороси. В этом случае точность выявления закономерностей вам может показаться куда более значимой.

Нужда банкиров

По оценке компании Gartner, регулярно публикующей «Циклы зрелости технологий», в 2014 году большие данные покинули пик чрезмерных ожиданий и перешли в стадию избавления от иллюзий. Как и у любой модной технологии, ожидания от больших данных на пике оказались перегреты. Подобный энтузиазм по отношению к возможностям числовых методов уже был в девяностые годы в лингвистике, когда накопление больших массивов электронных текстов и их анализ порождали веру в возможность создания систем автоматического перевода, основанных на статистических методах. Системы создать удалось, но качество их работы весьма далеко от желаемого, в чем может убедиться каждый. И это при том, что каждая из них «подкручивается» вручную лингвистами, прописывающими правила и исключения.

В больших данных Россия пока некритично отстает от мирового рынка. Многие крупные компании уже занимаются ими или как минимум присматриваются к Big Data. Например, в России о проектах анализа больших данных заявляли Сбербанк, ВТБ24, «Вымпелком», «Мегафон», «Юлмарт», Альфабанк, «Эльдорадо». Пока наибольшую активность проявляют банки, телеком и торговля. Серьезный и до сих пор неиспользуемый потенциал имеют здравоохранение, ЖКХ, транспорт и государственное управление.

Мы не зря начали с банковских примеров. Именно банки сейчас главные российские энтузиасты в применении анализа больших данных. Экономическая ситуация их явно стимулирует. «Сегодня выдавать кредиты смерти подобно, а не выдавать — верная смерть», — с грустью объясняет банкир, вынужденный срочно заняться апгрейдом системы скоринга.

«Вероятность возврата кредита можно прогнозировать по району проживания, марке автомобиля: наихудший прогноз для пешеходов и обладателей ГАЗов, наиболее дисциплинированные — владельцы “Фольксвагенов”», — рассказывает Михаил Левиев, руководитель компании «Алгомост», внедряющей сейчас скоринговую систему в одном из крупных розничных банков. Влияет на вероятность выплаты даже окончание фамилии. Например, самые добросовестные заемщики — обладатели армянских фамилий.

«При помощи нашей платформы Teradata Aster мы можем выявлять отклонения от стандартного поведения сотрудников банка. При анализе логов операционного CRM можно выявить подбор параметров кредитной заявки для получения более высокого скорингового балла, манипуляции параметрами заявки для получения более высокого кредитного лимита, — объясняет Данил Левенстам, директор по работе с клиентами Teradata. — Также мы выделяем типичные цепочки событий, приводящих к закрытию счета. Это позволяет предупредить потерю клиентов».

«Благодаря аналитике нам удалось выявить случаи, когда клиенты, пользуясь незаметными ранее лазейками, целенаправленно получали необоснованный cash back, — рассказывает Дмитрий Лисиченко, начальник управления финансовой и аналитической отчетности ВТБ24. — Легко ловятся за руку также умельцы из числа отдельных недобросовестных сотрудников банка, раздувающие показатели своей работы, например, выдачей кредитов себе и родственникам с погашением через пару дней».

Анализ страниц клиентов в соцсетях, содержания постов и связей с другими пользователями может помочь в оценке вероятности невыплат по кредитам. Но пока это скорее теория, успевшая, впрочем, стать популярной страшилкой у журналистов. По словам Михаила Левиева, в автоматическом режиме верно отыскивается лишь 40% персональных страниц, что лишь вносит шум. Считаные банки запрашивают у клиентов адреса личных страниц. «Только один из наших клиентов этим занимался и набрал лишь 700 адресов, что для анализа бессмысленно», — объясняет он. Зато анализ социальных сетей помогает в маркетинге — массовое изучение содержимого соцсетей помогает выявить граждан, с высокой вероятностью готовящихся, например, к покупке машины или квартиры, что позволяет сделать им опережающее предложение. Поэтому особого смысла «облагораживать» свой образ в соцсетях нет: вы лишь получите меньшее число более выгодных персональных предложений, а отсутствие информации или ее искажение вряд ли приведет к негативным решениям банка или страховой компании. Однако в отличие от них, работающих с большими данными, работодатели, текущие и потенциальные, готовы тратить время на персональный анализ, поэтому расслабляться на своей «уютной страничке» все же не стоит.

Покупатель в прицеле

От банков не отстают торговцы, прежде всего работающие в онлайне. Рекомендательные сервисы и контекстная реклама, основанные на анализе данных, собранных при слежке за поведением пользователя, давно стали отраслевым стандартом. «Мы разработали модели индивидуальных рекомендаций для покупателей, чтобы определить наиболее релевантное предложение каждому из них. Мы можем персонально выстраивать страницу предложений для каждого посетителя в отдельности, основываясь на той истории покупок, поведения и прочих данных, которые есть в системе. Фактически это полностью персонализированная версия сайта, которая успела вас опознать, выгрузить все необходимые данные о поведении на различных сайтах, обработать их и показать вам индивидуальные предложения за мгновение. Каждую секунду мы обрабатываем около 300 тысяч событий», — рассказывает Саймон Проект, основатель российского стартапа Flocktory, уже работающего более чем с 40% российского рынка e-commerce («Озон», «М.видео», Groupon, Lamoda, «Связной», «Утконос», S7). Для персонализации предложений собираются данные из модулей платформы, интегрированной с большинством крупных онлайн-ритейлеров, и из открытых источников, включая социальные сети, доступ к своим страницам в которых дает пользователь при авторизации через свой профиль.

Основной набор данных, которые используются сейчас, можно разделить на три группы:

— основные характеристики посетителя: сюда входят такие данные, как возраст и пол, регион покупок, сила социального влияния, страница «приземления» на сайте, источник трафика и др.;

— данные о поведении: текущая просматриваемая страница, глубина переходов и количество просмотренных страниц, наличие товаров в корзине, проведенное на сайте время, намерение покинуть сайт и т. п.;

— данные о покупках, такие как средний чек и частота покупок, тип клиента: новый, «спящий», возвращающийся и т. д.

Пример отдачи от инвестиций в анализ данных привел на круглом столе «Большие данные: тренд новых ИТ», проведенном CNews, Николай Валиотти, руководитель отдела стратегического анализа и сценарного планирования ритейлера «Юлмарт». Благодаря решениям, принятым на основе анализа данных, компания, затратив 150 млн рублей, сумела увеличить объем продаж на 3 млрд рублей.

Традиционные ритейлеры прежде всего используют большие данные, работая с оптимизацией остатков и ассортимента. Однако рекомендательные сервисы начинают выходить в офлайн. Петербургский стартап Synqera уже внедрил две такие системы в сети детских магазинов «Кораблик» и сети по продаже косметики, парфюмерии и товаров для дома «Улыбка радуги». Ключевые задачи — идентификация клиента и сохранение истории его покупок — решаются при помощи банковских карт и карт лояльности. Рекомендательная система позволяет вернуть клиента (например, предложив скидку с ограниченным временем действия), перевести его в более премиальную категорию, расширить ассортимент приобретаемых товаров, оптимизировать сбыт. Каналами коммуникации при этом являются телефон (СМС-рассылки), электронная почта, экраны на кассах и инфокиоски у входа в магазин, к которым покупатель обращается при каждом визите и получает купоны со скидкой 10–30% на определенные товары. В «Улыбке радуги» сейчас около половины покупателей имеют карты лояльности, около 20% используют инфокиоски.

Работа в офлайне имеет свою специфику. В онлайн-магазинах преимущественно покупаются разовые товары, в традиционных — регулярно приобретаются одни и те же наименования, что дает больше информации и возможностей для манипулирования покупателем. Следующим шагом может стать идентификация на основе распознавания лиц. Тогда каждого покупателя можно будет преследовать рекламой не только в момент предъявления персональных карт, но и прямо у товарных полок и уличных витрин. Впрочем, операционный директор Synqera Филипп Шубин считает целесообразным только распознавание пола и возраста человека — высокоточное распознавание лиц для персональной идентификации ему представляется пока экономически неоправданным.

Настоящий кладезь данных, в том числе для ритейла, — информация о перемещениях людей. «Розничные сети могут принимать решения об открытии новых торговых точек на основе данных, имеющих географическую привязку: данных сотовых операторов и данных банков об использовании пластиковых карт. Ритейл сопоставляет их с информацией своей программы лояльности и данными об оплате. Таким образом можно ранжировать места возможного открытия торговых точек с точки зрения присутствия и перемещений целевой аудитории, оценивать эффективность рекламных компаний, принимать решения об оптимизации или реструктуризации существующей сети», — рассказывает Юрий Чехович, генеральный директор компании Forecsys.

Геоданные востребованы также самими сотовыми операторами. В «Вымпелкоме» рассказывают, что занимаются анализом больших данных в десяти направлениях. Например, анализ перемещений клиентов наиболее перегруженных офисов позволяет предложить им информацию об адресах, которые, возможно, им более удобны. Анализ поведения клиента может позволить удержать его от ухода. Так, если сим-карту переставили из дорого смартфона в дешевую «звонилку», вероятно, для смартфона была приобретена карта другого оператора, и стоит предложить клиенту тариф, выгодный для его личного профиля потребления услуг. Также возможны упреждающие меры в режиме реального времени в случае звонка оператору-конкуренту или посещения его сайта.

Причиним добро обществу

Пока мало кто достиг успехов в оцифровке государственной деятельности, но примеры уже появляются. Подобный опыт есть у Тарика Малика, старшего консультанта по государственному сектору корпорации Teradata. Ранее он в роли главы Национального агентства по управлению базами данных и регистрациями граждан Пакистана (NADRA) создал одну из самых крупных мультибиометрических систем в мире — «сатанинские знаки» получило более 100 млн граждан Пакистана, для хранения и обработки данных потребовалось около тысячи серверов и 9000 подключенных к ним компьютеров. Сбор и очистка данных потребовали немалых усилий: для раздачи биометрических идентификационных документов в горных районах пришлось даже нанимать альпинистов и лыжников. Но даже первые итоги работы того стоили: были выявлены получатели двойных и даже тройных пенсий, много шуму наделало вскрытие практики «сидельцев по найму», отбывающих наказание за других за умеренную мзду. В списках избирателей было обнаружено 37 млн неверных записей (45% от всей базы!) — дубликатов (некоторые лица были зарегистрированы более 20 раз) и просто «мертвых душ». Поскольку многие операции, прежде всего финансовые, требуют предъявления удостоверения личности, то их анализ позволил получить картину хозяйственной деятельности значительной части населения и выделить потенциальных налогоплательщиков: владельцев дорогих автомобилей и множества банковских счетов, жителей дорогих районов, активных потребителей. Из них 2,4 млн не имели ИНН, а еще 1,2 млн граждан, его получивших, не подавали налоговую декларацию. «Если значительное число уклонистов заплатило бы законные налоги, то, по нашим оценкам, всего за три месяца мы могли бы увеличить доходы бюджета по крайней мере на 100 миллиардов рупий, или на миллиард долларов, а это около 0,5 процента ВВП Пакистана», — уверен Тарик Малик. При этом он отказался от финансирования со стороны правительства и перевел NADRA на самоокупаемость, что позволило уменьшить политическое давление. Удостоверения личности выдаются бесплатно, деньги взимаются за ускоренную выдачу и за идентификацию при операциях. Например, при открытии счета банк платит за подтверждение личности 35 рупий (0,35 доллара). За пять лет доходы NADRA выросли в три раза, а число сотрудников увеличилось до 18 тыс. NADRA создала дочернюю публичную компанию NADRA Technologies Ltd, успешно работающую на зарубежных рынках.

России до этого еще далеко. Несмотря на пришедший из тоталитарного прошлого институт прописки, предполагающий контроль за каждым, государство по-прежнему мало что знает о своих гражданах. Ярким симптомом этого являются переписи, которые приходится регулярно проводить, несмотря на то, что, по словам переписчиков, 20–30% анкет просто «нарисованы». Однако можно надеяться, что постепенная унификация и объединение многочисленных государственных баз данных и развитие систем их анализа позволят и в России реализовать тотальный контроль контингента.

Воспитание клиентов

Внедрение решений на основе анализа больших данных на практике куда сложнее, чем это выглядит в кратких описаниях. Причиной тому несколько проблем. Первая — взаимопонимание с бизнесом. Результатом должен стать не прогноз, а решения, принятые на его основе. «Зачастую клиенты ставят слишком узкие задачи, в принципе не решаемые на основе имеющихся данных. А порой и просто бесполезные. Например, отсечь посетителей, пришедших на сайт, но не готовых платить. Мы объясняем, что эта задача не имеет смысла, в конечном счете важно лишь поднимать число тех, кто платит», — объясняет Михаил Левин. Консерватизм и неосведомленность потенциальных клиентов также мешают, зачастую они просто не представляют, что можно выжать из их данных и как это применить.

Анализ поведения клиента позволяет повысить эффективность манипулирования им Вторая проблема — доступность, чистота и совместимость данных. «Различные интернет-магазины хранят и каталогизируют свои данные совершенно по-разному. Один и тот же телефон в разных магазинах может быть идентифицирован как гаджет, смартфон, телефон и что-либо еще, и наша задача научиться это понимать, чтобы точно рассчитывать предпочтения аудитории. Это кажется несложным, но на деле вариантов сортировки одних только товаров — десятки, и каждый нужно учитывать и сопоставлять», — приводит пример Саймон Проект. Кроме того, убедить заказчика, а уж тем более сторонние организации поделиться данными порой сродни подвигу. Препятствием здесь являются опасения раскрытия коммерческих тайн, конфиденциальных данных и просто «как бы чего не вышло».

Третья сложность — взаимоотношения с заказчиком. «Внутренние аналитики клиента часто воспринимают нас как конкурентов и даже при заинтересованности руководства ставят палки в колеса», — признается Михаил Левиев. «Уводят идеи. Поэтому мы не занимаемся активными продажами — после того как ты пришел и объяснил, как можно повысить эффективность бизнеса, с тобой прощаются и делают все своими силами. Хотя некоторые потом возвращаются, ведь многие аналитики уверены, что развитие математики остановилось в тот момент, когда они закончили вуз, — жалуется Юрий Чехович. — Да и просто заставить клиента сотрудничать, скажем, чтобы собрать бизнес-требования или сделать корректную выгрузку данных, весьма нелегко».

В отдельных бизнесах не все готовы экспериментировать, например, с прогнозами выхода из строя критичного для безопасности оборудования: лучше перестраховаться и заменить его намного раньше возможного времени поломки, чем обучать алгоритм на жизнях клиентов. Также у некоторых еще есть иллюзия возможности сохранения конфиденциальности, что накладывает ограничения на работу с персональными данными, в том числе и на законодательном уровне.

Однако несмотря на существующие сложности и закрытость рынка, ситуация, похоже не так уж плоха. Судя по энтузиазму, с каким в эту область бросилось множество ИТ-компаний, некоторые из которых прежде вовсе не имели отношения к аналитике, а также по размеру пиар-бюджетов, предвкушение взрывного роста их не покидает. Согласно оценке IDC, мировой объем рынка технологий и услуг в сфере больших данных будет ежегодно расти в среднем на 26,4%, что примерно в шесть раз быстрее всего ИТ-рынка, и к 2018 году достигнет объема 41,5 млрд долларов.