Решили выяснить, как это работает и почему с 2016 года отрасль растет на $6-7 млрд в год. Разбираемся вместе с коллегами из проектного офиса аналитики больших данных, которые развенчивают основные мифы о технологии больших данных и рассказывают о своей работе.
Big Data – это нечто новое
Технологии Big Data и Data Science новыми можно считать лишь условно. Они появились в результате развития вычислительной техники и математического аппарата еще в середине прошлого века.
Впервые термин Data Science упоминается в книге “Concise Survey of Computer Methods” датского ученого Петера Наура, которая вышла в 1974 году. В книге Петер явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных – от появления до преобразования для представления в других областях знаний. По сути Data Science – это методы и инструменты анализа данных: статистика, интеллектуальный анализ данных и приложения искусственного интеллекта для работы с данными.
Что касается Big Data, то этим термином обозначают большие массивы данных, обрабатываемые информационными системами. Часто этим термином обозначают и инфраструктуру для обработки больших массивов данных.
Развитие систем Big Data привело к взрывному росту интереса к Data Science. Были разработаны новые методы, а повышение производительности вычислительных систем позволило получать результаты работы ресурсоемких алгоритмов в приемлемое время.
Но вся эта революция случилась не вчера, она зародилась еще в эру ЭВМ. А вот, что действительно, новое в наше время – это появление новых мощных инструментов для хранения и обработки big data.
В этой статье мы решили рассмотреть наиболее часто встречающиеся утверждения и мифы про Big Data и узнать, правдивы ли они или нет.
Данные тем ценнее, чем меньше людей ими владеют
Это спорное утверждение. С одной стороны, владение данными действительно ценно: если компания смогла собрать уникальные данные и имеет ресурсы для их анализа, то она может получить серьезное конкурентное преимущество.
С другой стороны, чем больше людей имеют доступ к данным, тем больше идей по анализу данных может возникнуть. В настоящее время растет популярность соревнований по машинному обучению, где компании публикуют свои данные, а люди строят на них модели. Результаты победителей таких соревнований нередко превосходят все ожидания организаторов.
Кстати, мы в ближайшее время тоже планируем организовать хакатон в офисе Tele2, во время которого люди будут использовать наши данные для решения открытых бизнес-кейсов. Нам очень интересно, что же у них получится, а результатами мы с вами обязательно поделимся.
Машины на основе Big Data заменят людей
Бояться не стоит. Да, современные алгоритмы машинного обучения умеют принимать повторяющиеся решения на основе большого количества обучающих данных. Если у вас есть 10 000 фотографий собак, подписанных как «собака», и 10 000 подписанных фотографий кошек, то вы легко сможете обучить компьютер отличать одно животное от другого с высокой точностью. Однако, если после этого показать алгоритму кадр из мультфильма, где изображён нарисованный кот, то программа не будет знать, что делать, в то время как трехлетний ребенок при первом просмотре мультфильма легко распознает правильное животное.
На данный момент ничего похожего на настоящий искусственный интеллект не существует. Есть машины, которые очень хорошо запоминают паттерны от простых (кошка или собака) до сложных (как управлять автомобилем так, чтобы не произошло аварии), но и только. Более того, у меня есть большие сомнения, что текущими методами можно вообще достичь чего-то, похожего на искусственный интеллект. Так что, если в вашей работе время от времени нужно делать выводы и корректировать поведение, то пока можно не беспокоиться о том, что ваш следующий коллега будет сделан из металла и проводов.
При этом важно понимать, что автоматизация работы действительно идёт полным ходом, просто, по большей части, это касается механической работы. Все мы сталкиваемся с этим каждый день, когда вместо разговора с кассиром в магазине нам нужно нажать пару кнопок на экране. И это крайне удобно, однако сокращающееся число рабочих мест в ближайшем будущем станет настолько глобальной проблемой, что даже люди, получающие от автоматизации больше всего преимуществ – владельцы корпораций и миллиардеры – начинают говорить о том, что нам скоро понадобится безусловный базовый доход, но это уже совсем другая история.
Big Data может точно предсказывать будущее
В основе этой идеи лежит детерминизм – учение о взаимосвязи и взаимной определенности всех явлений и процессов. Вселенная развивается по определённым законам. Ее можно рассматривать как гигантскую динамическую систему. Значит, если учесть все законы, то состояние Вселенной можно рассчитать на любой момент времени.
Сторонники этой концепции считают, что Big Data поможет выявить скрытые закономерности, определить все ещё неизвестные законы Вселенной, собрать необходимые для расчета данные и по ним спрогнозировать развитие событий.
Но проблема заключается в том, что информации, доступной внутри системы, недостаточно, для понимания ее функционирования. На систему могут оказывать значительное влияние внешние факторы.
Например, фермер выращивает индюшку ко Дню благодарения. Он ее каждый день кормит, поит и ухаживает за ней. С точки зрения индейки так было всегда, она убеждена в дружественном отношении к ней людей, а ее уверенность в безопасности достигает максимума. Но затем наступает День благодарения, и фермер убивает индейку. На основании своего предыдущего опыта индейка не могла предсказать такого развития событий.
Такие очень редкие, но крайне катастрофические события Насим Талеб называет «черный лебедь». По его мнению, редкие события не моделируются, потому что эти события настолько редки, что они полностью непредсказуемы … и, как правило, гораздо хуже, чем можно было ожидать.
Да, Big Data может собрать большой набор данных, а Data Science может выявить закономерности и спрогнозировать развитие событий. Но всегда может прилететь «чёрный лебедь», и все пойдет не так. Если чего-то никогда не было, то это ещё не означает, что этого не может быть вовсе.
Есть определенный объем данных, с которого данные становятся «большими»
Слово big из термина Big Data – это обман, потому что даже данные, весящие петабайт – 1 000 000 ГБ – могут не вписываться в концепцию этого понятия. Для Big Data требуются новые подходы обработки, автоматизации и аналитики. За термином Big Data стоят разработанные фреймворки, платформы и решения, которые опираются на 3 главных свойства, необходимых и достаточных для того, чтобы ваши данные были не просто значительного объема, а стали вписываться в концепцию Big Data. Как же это понять? Воспользуйтесь правилом 3V.
Если ваши данные могут храниться в различных форматах, таких как excel, csv, тексты, видео, картинки, то это первый тревожный звоночек, что это Big Data.
Если ваши данные растут с высокой скоростью, и она становится все больше и больше, присмотритесь, возможно вы имеете дело с Big Data.
Если ваши данные имеют большой объем и им тесно на ваших рабочих серверах, значит, перед вами Big Data.
Чем больше данных, тем лучше
С одной стороны, когда в компании собираются все возможные данные, и при этом они структурированы, корректны и регулярно обновляемы – это хорошо. На практике идеальных данных не бывает: встречаются неточности и серьезные ошибки. Когда данных много, каждая ошибка в действительности меньше влияет на результат, но с ростом количества данных растет и количество ошибок. А качество данных гораздо важнее их количества.
С другой стороны, для хранения и обработки больших объемов данных потребуются большие мощности, что, в свою очередь, приведет к большим затратам. На анализ и обработку больших данных, как правило, уходит больше времени, требуются более квалифицированные кадры. Хранилища для таких данных более дорогостоящие.
Прежде чем внедрять хранилище, в котором будут данные на любой вкус, необходимо оценить их точность, затраты и возможность монетизации этих данных. Поэтому нет, нельзя однозначно сказать, что чем больше данных, тем лучше.
У нас очень мало данных для Big Data
В современном мире собирается огромное количество информации, и ежедневно этот массив данных растет. Проблемы в недостатке данных нет, проблема в том, чтобы суметь выделить из всего этого разнородного объема информации действительно полезные знания, на базе которых можно принимать ценные решения.
С другой стороны, большими и разнородными объемами данных о своих клиентах обладают лишь единичные компании – телекоммуникационные, банки, страховые, интернет-гиганты. Большинство организаций еще не успело накопить объем информации, достаточный для применения современных алгоритмов обработки данных.
Резюмируя: данных много, но доступ к ним есть у единичных игроков рынка.
Все уже используют Big Data
Далеко не все компании, даже очень крупные, имеющие огромные массивы разнообразных данных, используют в своей аналитике методы машинного обучения. Несмотря на то, что в ценности данных убеждены практически все компании, далеко не каждая из них готова инвестировать деньги на создание соответствующих отделов, инфраструктуры, оборудования.
Множество организаций привыкли к устоявшимся за долгие годы средствам аналитики «внутри себя». При этом экономический эффект от внедрения технологий Big Data изначально не ясен, сроки его получения не определены, даже размер необходимых инвестиций посчитать в компании некому. При этом отдавать такую аналитику на аутсорсинг компания не готова – придется делиться ценными данными, а «такая корова нужна самому».
Очень здорово, что в Tele2 не так: мы знаем, как и где использовать данные, чтобы наш бизнес был максимально эффективен.
Big Data дают мгновенный и волшебный результат
Однозначно, это не так. Анализ Big Data состоит из нескольких больших и трудозатратных по времени и ресурсам этапов.
Этап сбора и подготовки данных (Data Engineering). Зачастую приходится работать не только с хорошо структурированными табличными данными, но и слабо структурированными – тексты, отзывы в социальных сетях, картинки, видео. Все эти данные требуют предобработки, расчета метрик, понятных для машинного обучения, хранения, регулярного сбора и обновления. Иногда данный этап занимает более 50% времени команды Big Data. Однако, этот этап является одним из наиболее важных, так как «мусор на входе – мусор на выходе».
Этап обучения модели (Machine Learning). Процесс, в ходе которого обрабатывается большое число данных, выявляются закономерности и используются, чтобы прогнозировать характеристики новых данных.
Внедрение полученных результатов в бизнес-процесс и регулярный расчет. Подводя итог, хотелось бы сказать, что у Big Data нет одного быстрого и волшебного алгоритма под любую задачу. Под каждый проект собирается команда, формируются оптимальные данные, находится наилучший алгоритм. Процесс «сбор данных – выбор алгоритма – получение результатов» итеративный. Зачастую, в реальной практике после обсуждения промежуточных результатов с заказчиком он может повторяться и претерпевать изменения несколько раз – появляется необходимость подключать новые источники данных, оптимизировать алгоритмы машинного обучения.
Big Data – только для крупных бизнесов
Думаю, что данное утверждение верно в части «крупных», но не совсем верно, в том, что присваивает термин Big Data только бизнесу. В самом деле, если данных у вас не так уж много, то вполне можно обойтись без Big Data – возможности того, что можно сделать на одной машине, сейчас не так уж малы. Однако это не значит, что такие огромные объёмы данных могут быть только у бизнеса – не стоит забывать и про науку.
В 2015 году в летней школе по параллельным вычислениям, одним из организаторов которой был CERN (сразу приходит на ум адронный коллайдер), мы убедились в том, насколько огромны объемы экспериментальных данных, велика компьютерная сеть и сложен стек технологий, необходимый для их обработки и хранения. Она включает в себя примерно 350 000 узлов, находящихся в 170 городах и 40 странах, 500 петабайт хранимых данных, более 2 миллионов одновременно запущенных задач (по данным 2015 года – сейчас, наверняка, больше). Разумеется, все это требует огромных инвестиций, но и потенциальное влияние на фундаментальную науку может быть очень велико.
Таким образом, как минимум, такой пример показывает, что Big Data может быть достоянием не только бизнеса, но и академического сообщества.
Big Data – это сбор данных
Big Data – это собирательное понятие, которое, конечно же, включает в себя процесс поиска и сбора данных, но на этом взаимодействие с большими данными не заканчивается. В целом, стадии работы с Big Data включают в себя: сбор информации, её структурирование и хранение, обработку и, в конечном итоге, создание инсайтов.
Поскольку количество информации со временем только увеличивается, основная сложность состоит не в том, чтобы получить данные, а в том, как их хранить и обрабатывать с максимальной пользой.
Концепция больших данных предполагает взаимодействие с такими объемами, которые не умещаются на одном компьютере, поэтому необходимо налаживать процесс хранения и обработки на целом кластере из десятков вычислительных машин. Также нужно учитывать такие факторы, как различные форматы данных, степень их структурированности, изменчивость во времени, масштабируемость. От выбора способа хранения зависят скорость и удобство взаимодействия с данными для аналитиков и, соответственно, скорость получения полезной информации из данных.
Аналитика на основе больших данных делается автоматически, без участия человека
Как можно догадаться, анализ больших данных не обходится без аналитики. Для того, чтобы вытащить из данных что-то полезное, нужно прикинуть, есть ли в этих данных нужная информация. Даже если машина найдет положительную взаимосвязь между ростом продаж мороженого и ростом утопленников, это вовсе не означает, что чем больше мороженого мы продадим, тем больше людей утонут. Возможно, во всем «виновата» жаркая погода: больше людей купаются в водоемах, больше тонут. И это, конечно, не значит, что не стоит купаться в жаркую погоду.
Какие данные взять, какие гипотезы стоит выдвинуть, как данные лучше подготовить, как интерпретировать выводы – определяет человек.
Проектный офис больших данных работает с большинством подразделений Tele2. Мы убедились: аналитика больших данных — это не «совершенный мозг», а «сильные очки», улучшающие наше управленческое зрение. Вместе с тем, не для всех задач требуется стопроцентное зрение, а, там, где оно необходимо, важно понимание, что делать с этой более четкой картинкой, чтобы не растеряться в изобилии фактов. Поэтому успешность проектов по анализу больших данных зависит не только от интереса подразделений в увеличении собственной эффективности, но и от активного участия функциональных экспертов в формулировке и проверке гипотез и, в конечном итоге, в улучшении существующих процессов.