Виртуализация данных - Data virtualization

Виртуализация данных - это подход к управлению данными, который позволяет приложению извлекать данные и манипулировать ими, не требуя технических подробностей о данных, например, как они отформатированы в источнике или где они физически расположены,[1] и может предоставить единый взгляд на клиента (или отдельное представление любого другого объекта) общих данных.[2]

В отличие от традиционных извлечь, преобразовать, загрузить ("ETL"), данные остаются на месте, и доступ в реальном времени предоставляется исходной системе для данных. Это снижает риск ошибок данных, рабочей нагрузки, перемещающей данные, которые могут никогда не быть использованы, и не пытается наложить единую модель данных на данные (примером гетерогенных данных является система федеративных баз данных ). Технология также поддерживает запись обновлений данных транзакций обратно в исходные системы.[3] Чтобы устранить различия в форматах и ​​семантике источника и потребителя, используются различные методы абстракции и преобразования. Эта концепция и программное обеспечение являются частью интеграция данных и обычно используется в бизнес-аналитика, Сервис-Ориентированная Архитектура услуги передачи данных, облачные вычисления, поиск на предприятии, и управление основными данными.

Виртуализация данных и хранилище данных

Некоторые корпоративные ландшафты заполнены разрозненными источниками данных, включая несколько хранилища данных, витрины данных, и / или озера данных, даже если хранилище данных, если оно реализовано правильно, должно быть уникальным и единственный источник истины. Виртуализация данных может эффективно связывать данные между хранилищами данных, витринами данных и озерами данных без необходимости создания полностью новой интегрированной платформы физических данных. Существующая инфраструктура данных может продолжать выполнять свои основные функции, в то время как уровень виртуализации данных просто использует данные из этих источников. Этот аспект виртуализации данных дополняет все существующие источники данных и увеличивает доступность и использование корпоративных данных.

Виртуализацию данных также можно рассматривать как альтернативу ETL и хранилище данных. Виртуализация данных изначально нацелена на получение быстрой и своевременной информации из нескольких источников без необходимости начинать крупный проект данных с обширным ETL и хранилищем данных. Однако виртуализация данных может быть расширена и адаптирована для удовлетворения требований к хранилищу данных. Для этого потребуется понимание требований к хранению данных и истории, а также планирование и проектирование для включения правильного типа виртуализации данных, стратегий интеграции и хранения, а также оптимизации инфраструктуры / производительности (например, потоковая передача, хранение в памяти, гибридное хранилище).

Примеры

  • The Phone House - торговое название британской сети розничной торговли мобильными телефонами в Европе. Carphone Warehouse - внедрила технологию виртуализации данных Denodo между транзакционными системами своей испанской дочерней компании и веб-системами мобильных операторов.[3]
  • Новартис реализовано TIBCO инструмент виртуализации данных, позволяющий исследователям быстро объединять данные из внутренних и внешних источников в виртуальное хранилище данных с возможностью поиска.[3]
  • Не зависящие от хранилища Primary Data (несуществующая, реинкарнированная как Hammer.space) представляла собой платформу виртуализации данных, которая позволяла приложениям, серверам и клиентам получать прозрачный доступ к данным во время миграции между хранилищами с прямым подключением, подключенными к сети, частными и общедоступными облачными хранилищами. .[нужна цитата ]
  • Связанные данные может использовать одну гиперссылку Имя источника данных (DSN ), чтобы обеспечить соединение с уровнем виртуальной базы данных, который внутренне связан с различными внутренними источниками данных, используя ODBC, JDBC, OLE DB, ADO.NET, SOA -стайл услуги и / или ОТДЫХ узоры.
  • Виртуализация базы данных может использовать один DSN на основе ODBC для обеспечения соединения с аналогичным уровнем виртуальной базы данных.
  • Alluxio, виртуальная распределенная файловая система с открытым исходным кодом (VDFS), запущенная в Калифорнийский университет в Беркли с AMPLab. Система извлекает данные из различных файловых систем и хранилищ объектов.

Функциональность

Программное обеспечение для виртуализации данных предоставляет некоторые или все из следующих возможностей:

  • Абстракция - абстрагирование технических аспектов хранимых данных, таких как местоположение, структура хранения, API, язык доступа и технология хранения.
  • Виртуализированный доступ к данным - подключайтесь к разным источникам данных и делайте их доступными из общей логической точки доступа к данным.
  • Преобразование - преобразование, улучшение качества, переформатирование, агрегирование и т. Д. Исходных данных для использования потребителями.
  • Федерация данных - объедините наборы результатов из нескольких исходных систем.
  • Доставка данных - публикация наборов результатов в виде представлений и / или служб данных, выполняемых клиентским приложением или пользователями по запросу.

Программное обеспечение виртуализации данных может включать функции для разработки, эксплуатации и / или управления.

Преимущества включают:

  • Снизить риск ошибок данных[сомнительный ]
  • Уменьшите нагрузку на систему, не перемещая данные[сомнительный ]
  • Увеличьте скорость доступа к данным в режиме реального времени
  • Позволяет обрабатывать запросы, передаваемые в источник данных, а не на средний уровень
  • Большинство систем позволяют конечным пользователям, имеющим доступ к исходным системам, самостоятельно создавать виртуальные базы данных.
  • Значительно сократить время разработки и поддержки
  • Повышение эффективности управления и снижение рисков за счет использования политик[4]
  • Уменьшить объем необходимого хранилища данных[5]

К недостаткам можно отнести:

  • Может повлиять на время отклика операционных систем, особенно если они недостаточно масштабированы для обработки непредвиденных запросов пользователей или не настроены на ранней стадии.[6]
  • Не навязывает неоднородную модель данных, что означает, что пользователь должен интерпретировать данные, если они не объединены с Федерация данных и понимание данных в бизнесе[7]
  • Требуется определенный подход к управлению, чтобы избежать проблем с бюджетом для общих служб.
  • Не подходит для записи исторических снимков данных. Хранилище данных лучше для этого[7]
  • Управление изменениями «требует огромных накладных расходов, поскольку любые изменения должны приниматься всеми приложениями и пользователями, использующими один и тот же комплект виртуализации»[7]

История

Интеграция корпоративной информации (EII) (впервые придуманный Metamatrix), теперь известный как Red Hat JBoss Data Virtualization, и системы федеративных баз данных - это термины, используемые некоторыми поставщиками для описания основного элемента виртуализации данных: возможности создавать реляционные СОЕДИНЕНИЯ в объединенном представлении.

Смотрите также

Рекомендации

дальнейшее чтение

  • Виртуализация данных: выход за рамки традиционной интеграции данных для достижения гибкости бизнеса, Джудит Р. Дэвис и Роберт Ив
  • Виртуализация данных для систем бизнес-аналитики: революционная интеграция данных для хранилищ данных, Рик ван дер Ланс
  • План интеграции данных и моделирование: методы масштабируемой и устойчивой архитектуры, Энтони Джордано