DataOps - DataOps

DataOps - это автоматизированная, ориентированная на процесс методология, используемая аналитиками и группами обработки данных, для улучшения качества и сокращения времени цикла аналитика данных. Хотя DataOps начинался как набор передовых методов, теперь он превратился в новый и независимый подход к аналитике данных.[1] DataOps применяется ко всему жизненному циклу данных[2] от подготовки данных до отчетности, и признает взаимосвязанный характер команды аналитики данных и операций в области информационных технологий.[3]

DataOps включает в себя Гибкий методология сокращения времени цикла разработки аналитики в соответствии с бизнес-целями. [2]

DevOps фокусируется на непрерывной доставке за счет использования ИТ-ресурсов по запросу и автоматизации тестирования и развертывания программного обеспечения. Это слияние программного обеспечения разработка и это операции улучшила скорость, качество, предсказуемость и масштаб разработки и развертывания программного обеспечения. Заимствуя методы DevOps, DataOps стремится внести те же улучшения в аналитику данных.[3]

DataOps использует Статистическое управление процессами (SPC) для мониторинга и управления конвейером анализа данных. При наличии SPC данные, проходящие через операционную систему, постоянно отслеживаются и проверяются на работоспособность. В случае возникновения аномалии группа аналитиков данных может быть уведомлена с помощью автоматического оповещения.[4]

DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или структуре. Инструменты, поддерживающие DataOps, способствуют сотрудничеству, координации, качеству, безопасности, доступу и простоте использования.[5]

История

Впервые DataOps был представлен Ленни Либманном, ответственным редактором InformationWeek, в записи блога на IBM Big Data & Analytics Hub под названием «3 причины, почему DataOps важны для успеха больших данных» 19 июня 2014 года.[6] Термин DataOps позже популяризировал Энди Палмер из Tamr.[3] DataOps - это прозвище «Операции с данными».[2] 2017 год был важным годом для DataOps: значительным развитием экосистемы, охватом аналитиков, увеличением количества поисковых запросов по ключевым словам, опросами, публикациями и проектами с открытым исходным кодом.[7] Gartner назвал DataOps участником цикла шумихи для управления данными в 2018 году.[8]

Наследие DataOps от DevOps, Agile и производства

Цели и философия

По прогнозам, к 2025 году объем данных будет расти со среднегодовым темпом 32% до 180 зеттабайт (Источник: IDC).[5] DataOps стремится предоставить инструменты, процессы и организационные структуры, чтобы справиться со значительным увеличением объема данных.[5] Автоматизация упрощает повседневные потребности в управлении большими интегрированными базами данных, освобождая команду данных для разработки новой аналитики более эффективным и действенным способом.[9][3] DataOps стремится повысить скорость, надежность и качество аналитики данных.[10] Он подчеркивает связь, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между специалисты по данным, аналитики, данные / ETL (извлечь, преобразовать, загрузить ) инженеры, информационные технологии (IT) и обеспечение качества / управление.

Выполнение

Тоф Уитмор из Blue Hill Research предлагает эти принципы лидерства DataOps для информационные технологии отделение:[1]

  • «Устанавливайте показатели прогресса и производительности на каждом этапе потока данных. По возможности, сравните время цикла потока данных.
  • Определите правила для абстрактного семантического слоя. Убедитесь, что все «говорят на одном языке» и согласны с тем, что это за данные (и метаданные), а какие нет.
  • Подтвердите с помощью «теста глазного яблока»: включите циклы обратной связи от человека, ориентированные на постоянное улучшение. Потребители должны быть в состоянии доверять данным, а это может происходить только при дополнительной проверке.
  • Автоматизируйте как можно больше этапов потока данных, включая бизнес-аналитику, науку о данных и аналитику.
  • Используя информацию о производительности, определите узкие места и затем оптимизируйте их. Для этого могут потребоваться инвестиции в обычное оборудование или автоматизация этапа обработки данных, ранее выполнявшегося человеком.
  • Установите дисциплину управления, уделяя особое внимание двустороннему контролю данных, владению данными, прозрачности и всестороннему происхождение данных отслеживание всего рабочего процесса.
  • Процесс проектирования для роста и расширяемости. Модель потока данных должна быть разработана с учетом объема и разнообразия данных. Убедитесь, что цены на поддерживающие технологии доступны для масштабирования с ростом объемов корпоративных данных ».

Рекомендации

  1. ^ а б «DataOps - это секрет». www.datasciencecentral.com. Получено 2017-04-05.
  2. ^ а б c «Что такое DataOps (операции с данными)? - Определение с сайта WhatIs.com». SearchDataManagement. Получено 2017-04-05.
  3. ^ а б c d «От DevOps к DataOps, Энди Палмер - Tamr Inc». Tamr Inc. 2015-05-07. Получено 2017-03-21.
  4. ^ DataKitchen (07.03.2017). «Секреты бережливого производства, которые можно применить к аналитике данных». Средняя. Получено 2017-08-24.
  5. ^ а б c «Что такое DataOps? | Nexla: платформа масштабируемых операций с данными для эпохи машинного обучения». www.nexla.com. Получено 2017-09-07.
  6. ^ «3 причины, по которым DataOps важен для успеха больших данных». IBM Big Data & Analytics Hub. Получено 2018-08-10.
  7. ^ DataKitchen (19 декабря 2017 г.). «2017: Год DataOps». дата-операторы. Получено 2018-01-24.
  8. ^ «Gartner Hype Cycle для управления данными позиционирует три технологии на этапе запуска инноваций в 2018 году». Gartner. Получено 2019-07-19.
  9. ^ «5 тенденций, стимулирующих большие данные в 2017 году». CIO Dive. Получено 2017-09-07.
  10. ^ «Unravel Data улучшает управление производительностью приложений для больших данных». Тенденции и приложения баз данных. 2017-03-10. Получено 2017-09-07.