Технологии анализа больших данных. Большие данные (Big Data)

03.03.2024

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?

Колонка преподавателей НИУ ВШЭ о мифах и кейсах работы с большими данными

Преподаватели Школы новых медиа НИУ ВШЭ Константин Романов и Александр Пятигорский, который также является директором по цифровой трансформации «Билайна», написали для сайт колонку о главных заблуждениях по поводу больших данных - примерах использования технологии и инструментах. Авторы предполагают, что публикация поможет руководителям компаний разобраться в этом понятии.

Мифы и заблуждения о Big Data

Big Data - это не маркетинг

Термин Big Data стал очень модным - его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data - это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data - это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data - не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про , но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data - не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data - это только данные, кто-то - что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, - тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data - построить какие-то закономерности. То есть аналитика - это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop , которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig - декларативный язык анализа данных.
  • Hive - анализ данных с использованием языка, близкого к SQL.
  • Oozie - поток работ в Hadoop.
  • Hbase - база данных (нереляционная), аналог Google Big Table.
  • Mahout - машинное обучение.
  • Sqoop - перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume - перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача - применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример - это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет - он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов - уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков - в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data - найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности - вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data - это область, в которой работают не все законы математики. Например, «1»+«1» - это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас - джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами - такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla - в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным - мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов - он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе - чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, - «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг , то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.

Другой проект Yandex Data Factory - «Снайпер », разработанный совместно с Магнитогорским металлургическим комбинатом и направленный на оптимизацию процессов плавки стали с помощью алгоритмов машинного обучения. Планируется, что конечный программный продукт будет выдавать оптимальное количество ферросплавов и добавочных материалов при производстве стали.

Big Data используется или может использоваться абсолютно во всех областях - вплоть до того, что данные мобильных операторов покупают даже службы водоснабжения. В частности, это характерно для Рима, где очень слабая система канализации, поэтому они с помощью Big Data прогнозируют активность в определенных частях города, что помогает им предотвращать прорывы труб и другие проблемы.

В общем, есть огромное число продуктов, которые строятся на Big Data. Они могут менять какую-то сферу тотально, как в здравоохранении, а могут лишь модифицировать ее, как в работе интернет-магазинов. В любом случае, Big Data открывает большие возможности. Нужно всего лишь научиться с ней работать.

К 2015 году несмотря на малый срок существования сектора , уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Один из самых высоких показателей относится к энергетике – по оценкам аналитиков, аналитические технологии Big Data способны на 99% повысить точность распределения мощностей генераторов.

Анализ неудачных проектов Big data

Big data для операторов связи

  • высокоточный маркетинг (рrecise marketing) - адресное предложение продуктов и услуг тем потребителям, которые наиболее готовы к их приобретению (новые тарифные планы, дополнительные сервисы, платежные терминалы и пр.);
  • управление качеством услуг для клиента (Customer Experience Management) для повышения его удовлетворенности с целью предотвращения оттока пользователей;
  • оптимизация внутренней работы оператора и планирование развития (ROI-based Network Optimization and Planning) на основе учета всех объективных факторов и мнений потребителей с целью максимальных гарантий возврата инвестиций в кратчайшие сроки;
  • монетизация информационных активов (Data Asset Monetization) - продажа в той или иной форме (в том числе в виде долевого участия в проектах) имеющихся у оператора данных своим партнерам, чтобы они могли с их помощью решать свои задачи.

Развернув решение больших данных, мобильный оператор смог начать собирать и анализировать существенно больше информации о поведении и интересах своих клиентов, в том числе об интенсивности использования связи и географическом местоположении. Причем все эти сведения можно было увязывать с данными о работе самой сотовой сети, в том числе о ее загрузке, о возникающих сбоях и пр.

Возможности применения подобных методов видны по полученным результатам. Так, в начале 2013 г. эффективность маркетинговых предложений (для клиентов, которые их приняли) при общей массовой рассылке составляла 0,7%. К концу года за счет простой сегментации абонентов (по возрасту, полу, сроку подписки) эта величина была доведена до 4%, а в течение 2014-го повышена сначала до 11% (учет интенсивности использования услуг и местоположение клиентов) и затем до 24% (учет предпочтительных вариантов получения предложения - голосовые звонки, SMS , э-почта, социальные сети и пр.). За год удалось сократить число нерезультативных обращений к клиентам на 11 млн., существенно снизив затраты на рекламные кампании.

На основе анализа 85 параметров поведения абонентов была выделена «группа риска», потенциально готовая к уходу от услуг оператора. Внутри нее также была проведена определенная сегментация, и для каждой категории клиентов выработан комплекс мероприятий по повышению уровня их лояльности (скидки, другие тарифные планы, подарки и пр.). Заказчик провел исследование, разделив «группу риска» на две подгруппы: с первой проводились специальные действия по удержанию, с другой ничего не делалось. Анализ такой работы за год показал, что компания смогла существенно сократить отток своих действующих потребителей, удержав более 200 тыс. абонентов; при этом нужно учитывать, что стоимость удержания клиента всегда значительно ниже, чем привлечения нового пользователя.

До использования больших данных расширение географической сети оператора фактически выполнялось только на основе информации о плотности застройки и населения, но внедрив это решение, China Unicom перешел к развитию свой деятельности на базе многофакторного анализа, который учитывал такие показатели, как реальная загруженность трафика и востребованность услуг (например, с учетом места работы людей), «ценность» клиентов (по уровню жизни), требования к качеству связи (расстояние между станциями приема), востребованность разных категорий услуг (от этого зависит использование различной аппаратуры) и пр.

В плане монетизации клиентских данных для внешних партнеров были приведены два примера: во-первых, оптимизация размещения наружной рекламы, причем как в географическом плане (место проживания, работа или транспортные коммуникации нужных клиентов), так и с учетом времени для динамической рекламы (в зависимости от времени суток, дней недели и сезонов года состав публики может меняться), а во-вторых, аналогичные предложения по развитию торговых сетей (с учётом местоположения и ассортимента). Кроме того, очень выгодным оказывается целевая рассылка мобильной рекламы в реальном времени в соответствии с графиком занятости человека, его интересов и физического пребывания (например, рассылка информации о фильмах-боевиках, которыми клиент интересуется, именно в его свободное время и с учетом близлежащих кинотеатров). Общий отраслевой опыт показывает, что такие адресные методы позволяют повышать доходы от распространения рекламы в разы.

Big data в банках

«Аналитика позволит банковским организациям лучше контролировать информацию внутри компании и выявлять признаки мошенничества намного быстрее, чем это было возможно раньше», – заявила в начале 2014 года Авива Литан (Avivah Litan), ведущий аналитик и вице-президент Gartner Research.

Массовое внедрение технологий анализа больших данных осложнено тем, что банки зачастую используют разрозненные или просто устаревшие платформы. Тем не менее, уже есть примеры того, как сотрудники, отвечающие за информационную безопасность, предотвращали мошеннические операции. Помимо технологии Big Data эксперты также считают, что бороться с мошенниками позволяет внедрение современных систем идентификации пользователей. Одним из примеров является так называемая непрерывная поведенческая идентификация, анализирующая поведение клиентов на протяжении длительного времени. Это делается при помощи привязки счета к мобильному телефону.

Большие данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству и др. Повышая скорость и качество формирования отчетности, увеличивая глубину анализа данных, участвуя в противодействии отмыванию незаконных средств, эти технологии помогают банкам соответствовать требованиям регуляторов .

Основные задачи, для которых банки используют технологии анализа больших данных, – это оперативное получение отчетности, скоринг, недопущение проведения сомнительных операций, мошенничества и отмывания денег, а также персонализация предлагаемых клиентам банковских продуктов.

Технологии больших данных применяются в основном для анализа клиентской среды. Дмитрий Шепелявый, заместитель генерального директора SAP CIS (САП СНГ) , приводит несколько примеров: «Американский банк PNC данные о поведении своих клиентов на сайтах, информацию о покупках и образе жизни конвертирует в политику гибкого начисления процентных ставок, которая в итоге выражается в цифрах роста капитализации. Commonwealth Bank of Australia (CBA) анализирует все транзакции своих вкладчиков, дополняя этот анализ сбором данных о них в социальных сетях. Связав эти потоки данных, банк добился значительного снижения процента неуплаты по кредитам. А в России интересен опыт Уральского банка реконструкции и развития – они стали работать с информацией по клиентской базе для создания кредитных предложений, вкладов и других услуг, которые могут максимально заинтересовать конкретного клиента. Примерно за год применения ИТ-решений розничный кредитный портфель УБРиР вырос примерно на 55%» .

Согласно исследованию, проведенному компанией McKinsey&Company в 2014 г., 75% опрошенных пациентов хотели бы использовать цифровые сервисы – вопреки устоявшемуся мнению о том, что большинство населения неохотно обращается к ним при лечении.

Чтобы удовлетворить потребность пациентов в качественном медицинском обслуживании, во многих странах здравоохранение все больше обращается в сторону smart технологий. В Германии , например, уже сегодня благодаря технологиям Больших данных онкологические заболевания либо предрасположенность к ним выявляются по анализу крови пациентов и доноров. В результате своевременной диагностики существенно снижаются затраты государства и самих людей, а также невероятно повышается эффективность лечения. Ведь один из самых главных врагов пациента, запустившего болезнь – время. Обратимся к упомянутой ранее онкологии. Диагностика и подбор нужной схемы лечения может забрать драгоценные минуты, которые так важны в оперативном реагировании при обнаружении злокачественных образований

Большие данные, помимо уже известных и распространенных задач, можно использовать в том числе для борьбы с заболеваниями и отслеживания роста эпидемий, считают эксперты. Так, еще за девять дней до того, как вспышка вируса Эбола была официально объявлена эпидемией, группа исследователей и ученых из Бостона при помощи больших данных смогла обнаружить распространение геморрагической лихорадки в Гвинее.

Картину движения по Западной Африке эпидемии смертельного вируса составил стартап HealthMap, работающий на базе алгоритма, учитывающего упоминания в социальных медиа, сводки местных новостей и другие данные, доступные в Сети .

Системы больших данных могут оказаться полезными в первую очередь не для обнаружения уже проявившихся вспышек тех или иных заболеваний, а для предсказания потенциально возможных эпидемий такого рода благодаря анализу доступной информации. В этом случае практически те же технологии, которые помогают маркетологам демонстрировать потребителям таргетированную рекламу или предлагать музыку и видео для просмотра, могут быть использованы для борьбы против инфекционных заболеваний, таких как Эбола.

Big data в автомобилестроении

Big data в электронной коммерции

Big data в розничной торговле

Оффлайн-розница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайн-рознице на строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию. Все это – лишь базовые возможности, которые можно реализовать с помощью технологий больших данных .

Несмотря на экономический кризис, ожидается рост числа проектов по внедрению больших данных, в том числе и в ритейле. Хотя внедрение новых технологий грозит не только прибылью, но и высокими рисками, компании уже ознакомились с успехами более решительных коллег по бизнесу. В сложной экономической ситуации на первый план выходит необходимость экономить и повышать лояльность клиентов. Как раз с этими задачами и призваны справляться решения для работы с большими данными.

В борьбе за клиента ритейлеры все чаще обращаются к инновационным технологиям, таким как анализ больших данных, электронная коммерция, омниканальные сервисы, технологии RFID и т.д. В Корее, например, недавно был открыт первый в мире виртуальный магазин прямо на платформе метрополитена. Сканируя QR-коды с панелей, оклеенных изображениями различных товаров, жители Сеула складывают в свою виртуальную корзину выбранный товар, который затем доставляют им домой в удобное время. Подобные технологии, вероятно, нашли бы отклик у вечно спешащих москвичей .

Значительно выросло проникновение конкретно в этой индустрии флеш-накопителей – до 37% в 2012 году. Флеш-память играет одну из ключевых ролей в распространении контента и пост продакшене, отмечают исследователи. В период с 2012 по 2017 год требования к емкости цифровых хранилищ данных в индустрии развлечений вырастет в 5,6 раз, а требования к задействованному объему хранилищ данных в год – в 4 раза (с 22425 Пб до 87152 Пб).

Выручка от реализации систем хранения в отрасли медиа и развлечений вырастут более чем в 1,4 раза в период с 2012 по 2017 годы с $5,6 млрд до $7,8 млрд. Максимально решения для хранения данных в 2012 году были задействованы для сохранения и архивирования нового контента (98%).

По оценкам Coughlin Associates, в 2012 году от общего объема поставленной памяти 43% пришлось на ленточный формат, 41% на HDD, 16% на оптические диски и 0,2% на флеш (которая используется в основном в цифровых камерах и некоторых системах дистрибуции медиа). К 2017 году на ленты будет приходиться только 38%, а на HDD – уже 59%, на оптические диски – 3% и на флеш – 0,3%.

Общая выручка от реализации носителей и устройств, используемых в медиа и индустрии развлечений, вырастет в период с 2012 по 2017 год в 1,3 раза с $774 млн до $974 млн.

Big data в маркетинге

Когда конкуренция обостряется, для компаний важно предлагать клиентам свои услуги в тот момент, когда они наиболее востребованы, причем делать это быстро. Поэтому роль маркетинга возрастает - это уже не побочная ветвь бизнеса, как было раньше. Согласно данным исследования IBM , 63% главных исполнительных директоров пользуются помощью директоров по маркетингу (CMO) в выработке своей бизнес-стратегии. По уровню вовлеченности в этот процесс CMO опережают только главные финансовые директора с показателем 72%.

Теперь маркетологи могут воспользоваться современными технологиями big data и мощной аналитикой, что многократно усиливает возможности маркетинговых подразделений. Если раньше в их распоряжении были небольшие фрагменты данных, на основном которых приходилось выстраивать картину целого, да и сами данные подчас хранились там, откуда извлечь их было проблематично, то теперь положение дел изменилось.

Директора по маркетингу комбинируют данные из внутренних и внешних источников. Во-первых, люди сами о себе сообщают много информации, например, в социальных сетях. Там можно отслеживать их предпочтения или критику услуг. Анализ таких данных позволяет делать клиентам персонифицированные предложения. Особенно важно это для организаций, относящихся к сектору СМБ. Более того, небольшие компании подчас вынуждены открывать у себя новые направления бизнеса, если это требуется их клиентам.

Корпорация IBM ежегодно, начиная с 2004 года, проводит исследование, в котором опрашиваются директора компаний. В новом исследовании, которое назвали «Принимая вызов: Каким образом CMO могут начать заполнение информационных брешей» приняли участие более пятисот главных директоров по маркетингу компаний из 56 стран и 19 отраслей со всего мира.

Результаты исследования показали, что 94% опрошенных считают, что аналитика будет играть важную роль в достижении поставленных целей. Вместе с тем, возросло число директоров (82% респондентов по сравнению с 71% тремя годами ранее), которые полагают, что их организации недостаточно подготовлены к извлечению реальной экономической выгоды из взрывного роста данных.

Исследование также показало - когда директор по маркетингу тесно взаимодействует с директором по информационным технологиям, предприятие, как правило, функционирует более успешно. Приоритеты директоров по маркетингу сейчас соответствуют потребностям цифровой экономики. В 2013 году впервые на 1 место в числе приоритетов вышел пункт «развитие технологий».

Еще один факт: 94% руководителей отделов маркетинга считают, что ключевым фактором будущего успеха будут мобильные технологии. Три года назад такое мнение высказали 80% респондентов. Многие участники опроса – 58% респондентов заявили, что могут заниматься делами бизнеса независимо от своего местонахождения или используемого устройства.

Большие данные гражданской авиации

Согласно прогнозу аналитиков, 67% компаний из аэрокосмической отрасли реализуют проекты на основе Big Data , ещё 10% планируют такие проекты. Что касается авиакомпаний, то здесь реализация проектов на февраль 2019 года заявлена у 44% компаний, а планы на такие проекты анонсировали 25%.

Это результаты исследования, которое провела в декабре 2017 года компания FlightGlobal относительно роли Big Data для аэрокосмических предприятий и авиакомпаний. Аналитики также выяснили мнение по поводу совместного использования данных по состоянию самолётов с производителями и компаниями, осуществляющими ремонт и техническое обслуживание (ТО) . В исследовании приняли участие 300 профессионалов из аэрокосмической и авиационной отрасли. Большинство из них уверены, что технологии Big Data способны повысить операционную надёжность и эффективность авиакомпаний.

Приблизительно половина респондентов ответила, что их компании используют массивы данных о состоянии самолётов, что помогает им принимать более выверенные решения. В ближайшей перспективе доля таких компаний вырастет до 75%.

Совместное использование данных с OEM/MRO всё ещё остаётся проблематичным. Однако 38% авиакомпаний полагают, что такая модель может обеспечить им значительные бизнес-преимущества.

Согласно данным из опубликованного в мае 2018 года обзора компании Honeywell "Connected Aircraft" , 47% опрошенных авиакомпаний планируют потратить в целях подключения воздушных судов к Сети до 1 млн. долларов в течение следующего года на каждый самолёт, эксплуатируемый ими. Большинство этих компаний планирует уложиться в суммы от 0.1 до 0.5 млн. долларов. Однако, в пятилетней перспективе 38% авиаперевозчиков анонсировали инвестиции уже в размере 1-10 млн. долларов на каждый самолёт.

До февраля 2019 года при инвестировании авиакомпаниями в смежные к авиации технологии (connected technologies) речь шла, прежде всего, об обеспечении спутниковой связи и Wi-Fi . Теперь же компании готовы извлекать выгоду из тех данных, которые они могут получать путем использования оборудования непосредственно на борту самолётов. Например, такие данные могут обеспечить им экономию в размере 1% от потребляемого топлива, что эквивалентно 50 000 долларов на самолёт в год, подсчитали аналитики Honeywell. Подробнее .

Позавчера в новостной ленте 3 поста про Big Data. Вчера, коллега прислал заметку про тоже самое. Сегодня позвонили из "Билайна" и пригласили на бизнес-завтрак по Big Data. Не пошел! Я с готовностью и с открытым разумом "за" современные цифровые технологии. Я против профанации экспертности и несущих ее высокообразованных профанов.

Несколько слов адептам "больших данных", совершенно понятных маркетологам.

Что такое Big Data?

Пару слов тем, кто не совсем знаком с этим термином. Big data – это собственно большой проток плохо структурированных и не связанных друг с другом данных, полученных из несвязанных источников; их анализ и построение моделей прогнозирования события на их основе. Термин этот появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года.

Как бы сказать проще? Big Data – это такие данные:

  • которые невозможно обрабатывать в Excel
  • взаимосвязь между которыми не видит человек
  • к тем, что еще вчера не успели обработать,– это еще и постоянно поступающие новые данные за новый период.

Откуда эти данные?

Ежесекундно гигантские мегатонны контента генерируют события в мире, новостные порталы, бренды, их торговые и информационные посредники. В каждом магазине на входе стоит датчик, который фиксирует появление в торговом зале нового посетителя. Платежные онлайн-системы фиксируют транзакции, банки – движение наличных и безналичных денег, магазины считают чеки и анализируют их суммы. Поисковые системы фиксируют количество и частоту интернет-запросов. Социальные сети видят количество упоминаний тех или иных марок, по сопутствующему окружению, понимают характер и причину упоминания, настроение и отношение.

Ну что, маркетологи, у вас еще не загорелись глаза, руки от предвкушения "знать все" не дрожат? Спокойно! Это не для вас! Чтобы получить, собрать воедино, осмыслить все эти беспорядочные данные, нужно использовать ультрасовременную аналитику с привлечением искусственного интеллекта и чудовищные по объему хранилища этих данных. Если с хранилищами все решаемо, то вот искусственный интеллект нужно еще обучить. Впрочем, о сложности этой задачи ниже, а пока сохраним естественное для маркетолога желание "знать все" о потребителях и пойдем разбираться.

С Big Data есть вполне конкретный подвох.

Возьмите детский совочек, нагребите в него побольше песочка, простите, данных и попробуйте проанализировать то, что собрали

Мусор на входе – ошибки на выходе

Любой знакомый с информатикой, IT-технологиями и аналитикой понимает, что качество входящих данных и их достоверность – первейшая вещь. Очень просто черпать и накапливать данные, но вот как быть уверенным в том, что собрали вы то, там и о том?
  • Вы хотите получать данные из интернета? Замечательно. Любой бот способен генерировать трафика и данных на порядки больше, чем это наплодит ваша целевая аудитория! По оценке американской организации Association of National Advertisers, в 2015 году бренды потратили на закупку фальшивого, несуществующего трафика $7,2 млрд, а в прошлом году показатель вырос до $10 млрд.
  • Компания CNBC подсчитала, что в 2016-м до 20% выделяемых на интернет-рекламу бюджетов были потрачены на трафик, который генерировали боты (англ. non-human traffic).
  • Датчики на входе в магазин? Да весь персонал, периодически выходящий курить, нагенерирует посещения вашего магазина столько, что сделает эти данные бессмысленными. Праздно болтающиеся по торговому центру и периодически заходящие в ваш магазин "не покупатели" окончательно добьют идею "подсчитать магазинный трафик". Вы говорите, что эти цифры "праздных" можно спрогнозировать моделью и отсечь? Замечатльно, но как увидеть и отсечь рост "праздных", вызванный ATL-рекламной этого ТЦ или якорного арендатора? А если одновременно с этим идет и ваша массовая реклама?
  • Логичное машинное программирование никак не учтет тот факт, что "лайки" люди ставят не всегда выражая этим одобрение. Делают они это: из жалости, спонтанно, по привычке, из-за одобрения самого автора, а не его конкретного мнения, лайкают и боты и т.п.
Самая большая проблема в "больших данных" - это собственно, данные. Что касается людей, не стоит все ими сгенерированное слишком уж определенно брать на веру. Потребители путаются, сотрудники лгут, подрядчики, замотивированные на результат –– подтасовывают.

Неполнота данных

Давайте рассмотрим такую, в общем-то тривиальную для маркетинга задачу, как мониторинг (пока еще не прогнозирование) поведения целевой группы. И еще более конкретный предмет наблюдения, как социальное взаимодействие членов этой целевой группы. Зачем это нужно? Одной из целей взаимодействия является уменьшения неопределенностей – получение знаний и снятие сомнения при выборе, в отношении вашего предмета маркетинга. Такое уменьшение неопределенности является следствием совместного участия людей в межиндивидуальных или групповых видах деятельности, например, в ходе общения в соцсетях.

Беда же в том, что сколько бы мы не собирали "большие данные", но это общение не ограничивается только соцсетями. Люди общаются в офлайне: коллеги на работе, случайное общение членов ЦА на отдыхе, совместная выпивка в пабе, случайный разговор в общественном транспорте. Такое взаимодействие будет не подконтрольно наблюдателям за Big Data. По настоящему полнота данных может быть обеспечена только:

  • При тотальном контроле за всеми членами целевой группы. Ибо даже в туалете общественного кинотеатра может произойти такое взаимодействие, не учтенное для последующего анализа!
  • В замкнутой системе. Скажем, подсчитать число пользователей, пользующихся многоразовыми проездными билетами в метро и понять, какая же часть этого множества пользуется еще и наземным общественным транспортном. Но как подсчитать сколько же из не воспользовавшихся использовали такси?
Вторая проблема неполноты данных в том, что процесс такого взаимодействия имеет два аспекта: объективный и субъективный. Объективная сторона – это связи, не зависящие от отдельных личностей или групп, но объективно и содержательно способные быть учтенными в Big Data (например, купля/продажа, передача ии прием единицы информации). Это может быть учтено, подсчитано, обработано и на этом можно построить модель.

Субъективная сторона взаимодействия – это сознательное, нередко эмоционально окрашенное отношение индивидов друг к другу, возникающее в процессе взаимодействия: взаимные ожидания определенного поведения или реакции, личная расположенность к партнеру по взаимодействию, приятность внешнего вида и голоса партнера и тому подобное. Все это влияет, как на само взаимодействие, так и на результат такого взаимодействия. Эти же аспекты очень трудно проследить и проанализировать. Суррогатом, позволяющим хоть как-то проследить субъективный аспект взаимодействия являются лайки, смайлики в соцсетях. По их наличию можно попытаться определить степень вовлеченности, настроение и отношение. Но, черт возьми, как это сделать, если взаимодействующие их не используют? И уж конечно же эмоджи люди не используют на улицах, в магазинах, в транспорте – люди не живут в соцсетх и за их пределами общаются иначе!

Анализировать взаимодействия членов целевой группы только по факту взаимодействия (продажа) или только там, где вы хотите наблюдать такое взаимодействие (магазин), не учитывать субъективное качество взаимодействия – это обрекать себя не непонимания того, продолжится ли такое взаимодействие завтра, будут ли еще покупки в этом магазине – понравилось ли покупать, удовлетворены ли предметом маркетинга или нет.

Обезьяна, граната, а в гранате – Big Data

Зачастую, анализируя что-то маркетинговое с рынка, мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой: падение числа чеков с нашим товаром и рост цен на товары потребительской корзины. Если такие явления происходят параллельно и довольно длительное время, что в голове маркетингового специалиста может возникнуть мало чем обоснованное предположение о том, что это как-то взаимосвязано. Есть такое понятие "эпифеномен" - это ошибка причинно-следственных связей.

Н. Талеб в «Антихрупкости» говорит:

Если птицам читать лекции об теории полета, то они станут летать - вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью - «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот - сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Таргетированная реклама при помощи Big Data - это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались - когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам или когда вы уже товару купили, а еще месяц после вам показывают контекстно именно этот товар. Кто-то же в этот момент "палит" на вас деньги!?

Big Data в руках генераторов теорий - это идеальный инструмент для открытия и продвижения эпифеномена, а накопление данных и наблюдение за ними, в отсутствие четких моделей прогнозирования, построенных на анализе реалий, а не гипотез, может породить большое число таких ложных "открытий". Почему не основанные ни на чем гипотезы в науке – благо, а в маркетинге – смерть? Если кто-то из ученых напишет диссертацию и ошибется – не страшно, забыто. Но если эти теории проникнут в маркетинг - из прибыльного получится "monkey business".

Вначале научитесь предсказывать погоду на завтра

Научиться собирать данные и отсеивать "мусор" – это проблема, но она не столь значительная, по сравнению с проблемой отсутствие моделей поведения человека, алгоритмов прогнозирования. Есть такая расхожая шутка: "Пошла за розовой кофточкой, но никак не смогла отказать себе в этой лиловой сумочке" – это про и психологию покупательского поведения, которые попытаться спрогнозировать, так же "просто", как погоду на выходные. Способность предсказывать тренды на основе Big Data сильно преувеличена. Дело даже не в отсутствие способностей у маркетинговых аналитиков.

Ошибки прогнозов – это не математические ошибки, а фундаментальная проблема!

Все дело в пресловутом "человеческом факторе". Вероятность того, что замеченное сейчас изменение в поведении или оценках людей повториться в будущем не так уж и высока. Человек самообучаются быстрее, чем строится прогнозная модель. В любой момент во взглядах человека, в социуме, в рыночном сегменте, в ответной реакции брендов на деятельность конкурентов может появиться новый фактор влияния, который сломает все ваши гипотезы.

Несмотря на сотни компьютеров и целую армию метеорологов, никто не умеет предсказывать погоду на три дня вперед, так почему же вы ждете, что будущее вашего рынка можно предсказать на три года вперед?…
Джек Траут, Эл Райс "22 непреложных закона маркетинга"
ISBN: 5-17-024999-3, 978-5
И в этом своем мнении, мэтр совершенно .

Хотите примеры?

Конечно же любое мнение можно опровергнуть. Если не сейчас, то лет через триста, когда и опыт появится и технологии пойдут дальше. Но сегодня есть примеры, подтверждающие сомнения о возможности прогнозирования на Big Data. Примеры эти довольно убедительны.

Как прогнозировали грипп?

Самым любимым у многих адептов предсказаний на "биг дата" был Google Flu Trends - графики убедительно показывали, что можно предсказывать эпидемии гриппа в интернете, быстрее и надежнее, чем врачи. Достаточно проанализировать запросы пользователей о названии лекарств, их описаний и адресов аптек. Этот пример кочевал из презентации в презентации, из статьи в статью. В результате попал и в серьезные книжки. Раз сработало, а дальше? Все оказалось не точнее, чем у отечественного Гидрометцентра. Первый сигнал об ошибке был в 2009 году, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой - Google Flu Trends более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Прогноз победы

Во время выборов в Конгресс на праймерез в Виргини, по мнению аналитиков, на выборах должен был победить Э. Кантор из Республиканской партии. И действительно, он шел с отрывом в 34% от конкурентов. Однако, сокрушительно проиграл - минус 10% от победившего. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель. Но пример победы на выборах президента Трампа и однозначные прогнозы всех аналитиков не в его пользу – это куда более убедительный пример того, что прогнозы на Big Data – дело стрёмное!

Пишите длинные тексты

… учили еще несколько лет назад те, кто наблюдал за алгоритмом ранжирования поисковой системы Google. Две тысячи знаков, цифры и буллиты, ссылки на первоисточники – это то немногое, что сулило успех в ранжировании сайта. В ходе практической реализации этого совета, SEO-специалисты начали повально писать сложные и длинные тексты, даже на главную страницу сайта – если ты знаешь алгоритм, то всегда можешь повлиять на результаты. Если вы знаете алгоритм работы прогноза на основе Big Data вы легко можете обмануть систему.

Ворота МТС

Еще в 2015 году на Форуме "Future of Telecom" руководитель направления Big Data компании "МТС" Виталий Сагинов рассказывал о подходах компании в развитии направления по работе с "большими данными". В своем докладе он отмечал: "в ближайшее время доходы компании от продажи аналитики на данных будут сопоставимы с доходами от меседжинга и SMS". Замечательно, но в мае 2018 года все новостные ленты и ТВ облетела информация о том, что житель Москвы Алексей Надежин клиент этого сотового оператора связи обнаружил, что его ворота, установленные, на въезде в садоводческое товарищество "самостоятельно" подписались на платные SMS-сервисы отвечали на посылаемую им информацию.

В пресс-службе МТС тогда рассказали, что "специалисты провели необходимые работы, чтобы подобный случай не повторился". Означает ли это, что ворота сами что-то набирали в телефоне или подписки были оформлены без согласия абонента, в комментарии компании не уточняется. Вот только на симку, установленную в автоматике ворот приходило множество СМС с коротких номеров, а ворота, оказывается, "сами" им отвечали, отправляя СМС в ответ. Ну и где же результат многолетней работы с "большими данными" для недопущения подобного? Заявлять о умении собирать, анализировать и прогнозировать на Big Data – это еще не означает делать это с адекватным качеством!

А что Procter&Gamble?

На крупнейшей европейской выставки и конференции по вопросам цифрового маркетинга Dmexco’2017, прошедшей в Кельне, Procter&Gamble в своей презентации подробно остановился на том, что компания сильно сократила бюджеты, выделяемые на программатические закупки. Крупнейший транснациональный рекламодатель такого уровня впервые открыто, на публике спорил с тезисом рекламно-технологических компаний (англ. AdTech), до сих пор утверждавших, что охват пользователей гораздо важнее источника прямого рекламного трафика. В результате компания радикально сократила список интернет-площадок на которых готова размещать свою рекламу – нет адекватной прогнозной модели, незачем тратить деньги на формирование чего-либо в будущем.

Как Сбербанк от искусственного интеллекта пострадал

В феврале 2019 года во время своего выступления на «Уроке цифры» в частной школе в Москве глава Сбербанка Герман Греф, отвечая на вопрос о рисках внедрения технологий, сказал: «Искусственный интеллект, как правило, принимает решение в больших системах. Маленькая ошибка, закравшаяся в алгоритм, может приводить к очень большим последствиям». Отвечая на запрос РБК о сути потерь от внедрения искусственного интеллекта, в пресс-службе Сбербанка уточнили, что «речь идет не о прямых убытках, а скорее о недополученной прибыли». Тем не менее, глава банка высказался о потерях определенно, смысл его заявления в том, что Сбербанк в результате ошибок искусственного интеллекта уже потерял миллиарды рублей.

Big Data в маркетинге - пора расстаться с иллюзиями

Сколько бы поколений предсказателей не жило на Земле, сколько бы шаманов и жрецов не перепробовало все возможные инструменты предсказания, результат один, – деньги из кармана озабоченного будущем перекачивали в карман предсказателя. Сегодня вооружившись сверх мощными компьютерами, предсказатели пытаются делать тоже самое, что их достопочтенные основатели этой древнейшей профессии. Представление о человеке, как о предсказуемом и прогнозируемом автомате – ошибочно. Вот сегодня Big Data – очередной фетиш и очередной "хрустальный шар" в длинном многовековом перечне атрибутов предсказателей будущего. Все "убедительные примеры" способности к предсказанию на Big Data разваливаются или будут опровергнуты жестокой реальностью в ближайшие же годы.

Имеющие доступ к статистике: банки, телефонные компании, агрегаторы, вчера еще не знали зачем эти данные им самим нужны, а сегодня непременно хотят заработать на своих клиентах еще раз, перепродав им колонки цифр.

Уставшие от хайпа с Big Data

Разумеется, нельзя сказать, что Google Flu Trends совсем не работает, а предсказание на основе Big Data – мошенничество. Просто молоток можно использовать для создания прекрасного, но большинство его используют для починки убогого, а некоторые – и вовсе не во благо. Сейчас, похоже, что сильно увеличившееся давление предсказателей на Big Data, начало маркетологам мешать. Везде! Кроме как, в России – у нас все, даже самые прогрессивные и быстро набирающие обороты тенденции, наблюдаются с запаздыванием лет на пять.

Что до остального мира, то рекламодатели устали от многолетнего хайпа вокруг Big Data. Вообще же, первое, что тогда на Dmexco’2017 бросилось в глаза в первый же день выставки – из выступлений и презентаций практически стал исчезать термин Big Data. Это было заметно, так как последние четыре года этим словосочетанием пользовался каждый второй выступающий. И причина ослабевания "Big Data давления" на бизнес-сообщество и интернет-сообщество понятна:

Много трафика – много данных, много фальшивого трафика генерирует много фальшивых данных, на основе которых строятся недостоверные модели, на следование которым тратятся многомиллиардные бюджеты.

Что же дальше?

Если до сих пор все мысли IT-специалистов и аналитиков были заняты созданием баз данных, созданием принципов хранения, классификации информации, полученной из разных источников, то теперь, когда подобные хранилища созданы, для многих брендов стала очевидной бессмысленность анализа разных источников, накопления и складирования данных как таковых. Хранение и поверхностный анализ больших объемов информации стоит больших денег и не оправдывает себя, если нет моделей сопоставления данных, если бренд не в состоянии обработать и использовать статистику для повышения эффективности продаж – нет практической ценности.

Результатом переосмысления задачи "получить доступ к данным в маркетинге" стало появление нового термина, который отражает рост спроса на эффективное использование данных. В своих выступлениях на Dmexco’2017, в блогах и на конференциях, докладчики все чаще говорят о технологиях работы с большими данными как части (англ. predictive marketing).

Ну это про маркетинг! А что же с предсказанием на Big Data вообще? Однозначно это сработает в естественных науках, там, где есть накопленные данные за многолетний период, где за это же время откатана строгая математическая модель и понимание протекающих естественных процессов. Это реально сработает если анализировать макро-тенденции, происходящие в макромасштабе – тренды общества. Это реально сработатет, если анализировать замкнутые устойчивые системы микромасштаба (деревня, магазин на станции, на которую никогда не приходят поезда со случайными покупателями). Это применимо для оценки поведения в будущем конкретного человека. Но как только появляется взаимное влияние, вновь возникающие тенденции, "черные лебеди" (Насим Талеб) – исследуемая система предстает "черным ящиком".

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.