Новости отрасли

Данных много не бывает?

15.02.2018

Как не утонуть в озёрах данных и выудить нужную информацию для бизнеса.

Ажиотаж последних лет вокруг «больших данных» не спадает, и мы постоянно замечаем приметы внедрения этой технологии в нашу повседневную жизнь – в индивидуализированных рекламных предложениях, которыми нас ежедневно засыпают бренды, в подсказках социальных сетей, в чудо-приложениях, позволяющих нам следить за дорожной ситуацией, в работе «умных» светофоров, корректирующих свой режим в зависимости от плотности трафика, и во всем, на что только может хватить фантазии.

Неудивительно, что все больше компаний стремятся включиться в эту гонку за владение информацией, в которой главный приз, как принято считать, - владение миром.

У кого-то это получается весьма эффективно. Данные собираются, сразу же сегментируются, анализируются – и находят применение в собственном и даже чужом бизнесе: не секрет, например, что крупные ритейлеры продают рекламодателям обезличенные данные о покупателях, которые собирают в торговых точках.

В сфере транспорта и логистики умелое использование данных позволяет повысить эффективность планирования и маршрутизации, оптимизировать расход горючего, отслеживать местоположение и техническое состояние парка транспортных средств и обеспечить полную видимость логистических цепей.

Другие компании, воодушевленные успехами лидеров рынка, тоже инициируют сбор информации. Не имея ресурсов и возможностей производить их полноценный анализ, компании накапливают данные «впрок», для дальнейшего к ним обращения, используя, чаще всего, архитектуру так называемых «озёр данных».

Озёра данных – это репозиторий, хранилище большого объема разнообразных данных, без структуры и иерархии, которые собираются или генерируются организацией. Их использование соблазнительно: данные, предназначенные для хранения в озере, не требуют никакой предварительной обработки или анализа, они не фильтруются и хранятся «как есть», в сыром виде, а обратиться с запросом к ним можно в любое время.

Рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, – MarketsandMarkets

Насколько востребованными становятся такие хранилища, можно судить потому факту, что согласно прогнозу исследовательской компании MarketsandMarkets, рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, при этом стоимость содержания озёр данных крайне невысока.

Но у такой модели есть и «темная» сторона. Часто в озёра данных попадает вся информация без разбора, без присвоения метатегов и идентификаторов, такое озеро практически не поддается управлению и в конечном итоге становится болотом – настоящей свалкой информационного мусора, разобраться в котором нет никакой возможности. И по утверждению экспертов, это типичная ситуация на сегодняшний момент: часто компании, собирая информацию, не понимают, что с ней делать дальше.

Как же извлечь пользу из озёр данных?

Прежде всего, необходимо определить, какой цели планируется достичь при помощи собираемой информации, и сохранять только то, что соответствует вашей задаче. Так вы сможете отделить действительно ценную информацию от информационного шума.
Дальнейшая рекомендация парадоксальна: надо ограничить сбор данных. Начните с малого. Значительно легче масштабировать успешный проект, нежели погрязнуть в огромном объеме неуправляемой информации.
Не засоряйте озеро данных, не пренебрегайте присвоением идентификаторов и метатегов: так впоследствии будет легче извлекать нужные сведения.
Обеспечьте безопасность персональных данных, исключите возможность утечки информации.
Внедряйте машинное обучение для автоматизированного анализа полученных данных.

По результатам опроса, проведенного компанией Synesort, разработчиком программных решений для Big Data, в 2018 году 70,8% ИТ-профессионалов будут взаимодействовать с озёрами данных традиционным методом ETL (от англ. Extract, Transform, Load – дословно «извлечение, преобразование, загрузка»), то есть обеспечивать сбор, очистку и помещение данных в хранилище, 63,5% будут использовать данные в целях предиктивной аналитики и 60,4% специалистов – для аналитики в режиме реального времени.

Новости отрасли

Данных много не бывает?

Возим контейнеры из Китая

Купим б/у платформы