Озеро данных - Data lake

А озеро данных это система или хранилище данных хранится в натуральном / необработанном формате,[1] обычно возражают капли или файлы. Озеро данных обычно представляет собой единое хранилище данных, включая необработанные копии исходных системных данных, данных датчиков, социальных данных и т. Д. [2] и преобразованные данные, используемые для таких задач, как составление отчетов, визуализация, расширенная аналитика и машинное обучение. Озеро данных может включать структурированные данные из реляционные базы данных (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON ), неструктурированные данные (электронные письма, документы, PDF-файлы) и двоичные данные (изображений, аудио, видео). [3] Озеро данных может быть создано «локально» (в центрах обработки данных организации) или «в облаке» (с использованием облачных сервисов от таких поставщиков, как Amazon, Microsoft, или же Google ).

А болото данных - это испорченное и неуправляемое озеро данных, которое либо недоступно для предполагаемых пользователей, либо малоценно.[4]

Фон

Джеймс Диксон, тогдашний технический директор Пентахо, ввел термин[5] противопоставить это витрина данных, который представляет собой небольшое хранилище интересных атрибутов, полученных из необработанных данных.[6] Продвигая озера данных, он утверждал, что витрины данных имеют несколько неотъемлемых проблем, таких как хранение информации. PricewaterhouseCoopers (PwC) заявили, что озера данных могут «положить конец разрозненным данным».[7] В своем исследовании озер данных они отметили, что предприятия «начинают извлекать и помещать данные для аналитики в единое хранилище на основе Hadoop».Hortonworks, Google, Oracle, Microsoft, Залони, Терадата, Impetus Technologies, Cloudera, MongoDB, и Amazon теперь у всех есть предложения по озеру данных. [8]

Примеры

Многие компании используют облачные сервисы хранения, такие как Облачное хранилище Google и Amazon S3 или распределенная файловая система, такая как Apache Hadoop.[9] Научный интерес к концепции озер данных постепенно растет. Например, Personal DataLake в Кардиффском университете - это новый тип озера данных, предназначенный для управления большое количество данных отдельных пользователей, предоставляя единую точку сбора, систематизации и обмена личными данными.[10] Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности с его пакетной обработкой (Уменьшение карты ) и была единственной связанной с ним парадигмой обработки. Взаимодействие с озером данных означало, что нужно было иметь опыт работы с Java с инструментами уменьшения карты и более высокого уровня, такими как Апачская свинья, Apache Spark и Apache Hive (которые сами по себе были ориентированы на партии).

Критика

В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большое количество данных ".[11] PwC в своем исследовании также внимательно отметили, что не все инициативы по озеру данных успешны. Они цитируют Шона Мартина, технического директора Кембриджская семантика,

Мы видим, как клиенты создают кладбища больших данных, сбрасывая все в Распределенная файловая система Hadoop (HDFS) и надеемся что-нибудь с этим сделать в будущем. Но потом они просто теряют из виду, что там есть.
Основная проблема заключается не в создании озера данных, а в использовании возможностей, которые оно предоставляет.[7]

Они описывают компании, которые создают успешные озера данных, постепенно созревая свое озеро, выясняя, какие данные и метаданные важны для организации. Еще одна критика заключается в том, что концепция нечеткая и произвольная. Это относится к любому инструменту или практике управления данными, которые не вписываются в традиционные хранилище данных архитектура. Озеро данных было названо особой технологией. Озеро данных было обозначено как резервуар необработанных данных или хаб для ETL разгрузить. Озеро данных было определено как центральный узел для самообслуживания. Концепция озера данных перегружена значениями, что ставит под сомнение полезность этого термина.[12]

Хотя критика озер данных оправдана, во многих случаях они слишком широки и могут применяться к любым технологическим усилиям в целом и проектам данных в частности.[нужна цитата ]. Например, термин «хранилище данных» в настоящее время имеет такое же непрозрачное и изменяющееся определение, что и озеро данных. Также можно сказать, что не все усилия по созданию хранилищ данных были успешными. В ответ на различные критические замечания McKinsey отметила:[13] что озеро данных следует рассматривать как сервисную модель для предоставления бизнес-ценности внутри предприятия, а не как технологический результат.

Смотрите также

Рекомендации

  1. ^ «Растущее значение качества больших данных». Круглый стол по данным. Получено 1 июня 2020.
  2. ^ "Что такое озеро данных?". aws.amazon.com. Получено 12 октября 2020.
  3. ^ Кэмпбелл, Крис. «Пять основных различий между хранилищами данных и озерами данных». Blue-Granite.com. Получено 19 мая 2017.
  4. ^ Олавсруд, Тор. «3 ключа, чтобы ваше озеро данных не превратилось в болото данных». ИТ-директор. Получено 5 июля 2017.
  5. ^ Вудс, Дэн (21 июля 2011 г.). «Большие данные требуют большой архитектуры». Tech. Forbes.
  6. ^ Диксон, Джеймс (14 октября 2010 г.). «Пентахо, Hadoop и озера данных». Блог Джеймса Диксона. Джеймс. Получено 7 ноября 2015. Если вы думаете о витринах данных как о хранилище бутилированной воды - очищенной, упакованной и структурированной для облегчения потребления, - озеро данных - это большой водоем в более естественном состоянии. Содержимое озера данных поступает из источника и заполняет озеро, и различные пользователи озера могут приходить, чтобы исследовать, нырять или брать образцы.
  7. ^ а б Штейн, Брайан; Моррисон, Алан (2014). Озера данных и обещание необработанных данных (PDF) (Отчет). Технологический прогноз: переосмысление интеграции. PricewaterhouseCooper.
  8. ^ Уивер, Лэнс (10 ноября 2016 г.). «Почему компании прыгают в озера данных». blog.equinox.com. Получено 19 мая 2017.
  9. ^ Туулос, Вилле (22 сентября 2015 г.). «Петабайтные конвейеры данных с Docker, Luigi и точечными экземплярами Elastic».
  10. ^ Уокер, Корал; Alrehamy, Хасан (2015). «Озеро персональных данных с Data Gravity Pull». Пятая международная конференция IEEE по большим данным и облачным вычислениям, 2015 г.. С. 160–167. Дои:10.1109 / BDCloud.2015.62. ISBN  978-1-4673-7183-4. S2CID  18024161.
  11. ^ Игла, Дэвид (10 июня 2015 г.). «Саммит Hadoop: борьба с большими данными требует новых инструментов и методов». Корпоративные приложения. eWeek. Получено 1 ноября 2015. Уолтер Магуайр, главный технолог подразделения HP по работе с большими данными, рассказал об одном из наиболее спорных способов управления большими данными, так называемыми озерами данных.
  12. ^ «Озера данных - фейковые новости?». Sonra. 8 августа 2017 г.. Получено 10 августа 2017.
  13. ^ «Более разумный способ погрузиться в озера данных». McKinsey. 1 августа 2017 г.