Новости отрасли

Данных много не бывает?

15.02.2018
Изображение озера данных

Как не утонуть в озёрах данных и выудить нужную информацию для бизнеса.

Ажиотаж последних лет вокруг «больших данных» не спадает, и мы постоянно замечаем приметы внедрения этой технологии в нашу повседневную жизнь – в индивидуализированных рекламных предложениях, которыми нас ежедневно засыпают бренды, в подсказках социальных сетей, в чудо-приложениях, позволяющих нам следить за дорожной ситуацией, в работе «умных» светофоров, корректирующих свой режим в зависимости от плотности трафика, и во всем, на что только может хватить фантазии.

Неудивительно, что все больше компаний стремятся включиться в эту гонку за владение информацией, в которой главный приз, как принято считать, - владение миром.

У кого-то это получается весьма эффективно. Данные собираются, сразу же сегментируются, анализируются – и находят применение в собственном и даже чужом бизнесе: не секрет, например, что крупные ритейлеры продают рекламодателям обезличенные данные о покупателях, которые собирают в торговых точках.

В сфере транспорта и логистики умелое использование данных позволяет повысить эффективность планирования и маршрутизации, оптимизировать расход горючего, отслеживать местоположение и техническое состояние парка транспортных средств и обеспечить полную видимость логистических цепей.

Другие компании, воодушевленные успехами лидеров рынка, тоже инициируют сбор информации. Не имея ресурсов и возможностей производить их полноценный анализ, компании накапливают данные «впрок», для дальнейшего к ним обращения, используя, чаще всего, архитектуру так называемых «озёр данных».

Озёра данных – это репозиторий, хранилище большого объема разнообразных данных, без структуры и иерархии, которые собираются или генерируются организацией. Их использование соблазнительно: данные, предназначенные для хранения в озере, не требуют никакой предварительной обработки или анализа, они не фильтруются и хранятся «как есть», в сыром виде, а обратиться с запросом к ним можно в любое время.

Рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, – MarketsandMarkets

Насколько востребованными становятся такие хранилища, можно судить потому факту, что согласно прогнозу исследовательской компании MarketsandMarkets, рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, при этом стоимость содержания озёр данных крайне невысока.

Но у такой модели есть и «темная» сторона. Часто в озёра данных попадает вся информация без разбора, без присвоения метатегов и идентификаторов, такое озеро практически не поддается управлению и в конечном итоге становится болотом – настоящей свалкой информационного мусора, разобраться в котором нет никакой возможности. И по утверждению экспертов, это типичная ситуация на сегодняшний момент: часто компании, собирая информацию, не понимают, что с ней делать дальше.

Как же извлечь пользу из озёр данных?

  • Прежде всего, необходимо определить, какой цели планируется достичь при помощи собираемой информации, и сохранять только то, что соответствует вашей задаче. Так вы сможете отделить действительно ценную информацию от информационного шума.
  • Дальнейшая рекомендация парадоксальна: надо ограничить сбор данных. Начните с малого. Значительно легче масштабировать успешный проект, нежели погрязнуть в огромном объеме неуправляемой информации.
  • Не засоряйте озеро данных, не пренебрегайте присвоением идентификаторов и метатегов: так впоследствии будет легче извлекать нужные сведения.
  • Обеспечьте безопасность персональных данных, исключите возможность утечки информации.
  • Внедряйте машинное обучение для автоматизированного анализа полученных данных.

По результатам опроса, проведенного компанией Synesort, разработчиком программных решений для Big Data, в 2018 году 70,8% ИТ-профессионалов будут взаимодействовать с озёрами данных традиционным методом ETL (от англ. Extract, Transform, Load – дословно «извлечение, преобразование, загрузка»), то есть обеспечивать сбор, очистку и помещение данных в хранилище, 63,5% будут использовать данные в целях предиктивной аналитики и 60,4% специалистов – для аналитики в режиме реального времени.