Виртуализация данных - Data virtualization
Виртуализация данных - это подход к управлению данными, который позволяет приложению извлекать данные и манипулировать ими, не требуя технических подробностей о данных, например, как они отформатированы в источнике или где они физически расположены,[1] и может предоставить единый взгляд на клиента (или отдельное представление любого другого объекта) общих данных.[2]
В отличие от традиционных извлечь, преобразовать, загрузить ("ETL"), данные остаются на месте, и доступ в реальном времени предоставляется исходной системе для данных. Это снижает риск ошибок данных, рабочей нагрузки, перемещающей данные, которые могут никогда не быть использованы, и не пытается наложить единую модель данных на данные (примером гетерогенных данных является система федеративных баз данных ). Технология также поддерживает запись обновлений данных транзакций обратно в исходные системы.[3] Чтобы устранить различия в форматах и семантике источника и потребителя, используются различные методы абстракции и преобразования. Эта концепция и программное обеспечение являются частью интеграция данных и обычно используется в бизнес-аналитика, Сервис-Ориентированная Архитектура услуги передачи данных, облачные вычисления, поиск на предприятии, и управление основными данными.
Виртуализация данных и хранилище данных
Некоторые корпоративные ландшафты заполнены разрозненными источниками данных, включая несколько хранилища данных, витрины данных, и / или озера данных, даже если хранилище данных, если оно реализовано правильно, должно быть уникальным и единственный источник истины. Виртуализация данных может эффективно связывать данные между хранилищами данных, витринами данных и озерами данных без необходимости создания полностью новой интегрированной платформы физических данных. Существующая инфраструктура данных может продолжать выполнять свои основные функции, в то время как уровень виртуализации данных просто использует данные из этих источников. Этот аспект виртуализации данных дополняет все существующие источники данных и увеличивает доступность и использование корпоративных данных.
Виртуализацию данных также можно рассматривать как альтернативу ETL и хранилище данных. Виртуализация данных изначально нацелена на получение быстрой и своевременной информации из нескольких источников без необходимости начинать крупный проект данных с обширным ETL и хранилищем данных. Однако виртуализация данных может быть расширена и адаптирована для удовлетворения требований к хранилищу данных. Для этого потребуется понимание требований к хранению данных и истории, а также планирование и проектирование для включения правильного типа виртуализации данных, стратегий интеграции и хранения, а также оптимизации инфраструктуры / производительности (например, потоковая передача, хранение в памяти, гибридное хранилище).
Примеры
- The Phone House - торговое название британской сети розничной торговли мобильными телефонами в Европе. Carphone Warehouse - внедрила технологию виртуализации данных Denodo между транзакционными системами своей испанской дочерней компании и веб-системами мобильных операторов.[3]
- Новартис реализовано TIBCO инструмент виртуализации данных, позволяющий исследователям быстро объединять данные из внутренних и внешних источников в виртуальное хранилище данных с возможностью поиска.[3]
- Не зависящие от хранилища Primary Data (несуществующая, реинкарнированная как Hammer.space) представляла собой платформу виртуализации данных, которая позволяла приложениям, серверам и клиентам получать прозрачный доступ к данным во время миграции между хранилищами с прямым подключением, подключенными к сети, частными и общедоступными облачными хранилищами. .[нужна цитата ]
- Связанные данные может использовать одну гиперссылку Имя источника данных (DSN ), чтобы обеспечить соединение с уровнем виртуальной базы данных, который внутренне связан с различными внутренними источниками данных, используя ODBC, JDBC, OLE DB, ADO.NET, SOA -стайл услуги и / или ОТДЫХ узоры.
- Виртуализация базы данных может использовать один DSN на основе ODBC для обеспечения соединения с аналогичным уровнем виртуальной базы данных.
- Alluxio, виртуальная распределенная файловая система с открытым исходным кодом (VDFS), запущенная в Калифорнийский университет в Беркли с AMPLab. Система извлекает данные из различных файловых систем и хранилищ объектов.
Функциональность
Программное обеспечение для виртуализации данных предоставляет некоторые или все из следующих возможностей:
- Абстракция - абстрагирование технических аспектов хранимых данных, таких как местоположение, структура хранения, API, язык доступа и технология хранения.
- Виртуализированный доступ к данным - подключайтесь к разным источникам данных и делайте их доступными из общей логической точки доступа к данным.
- Преобразование - преобразование, улучшение качества, переформатирование, агрегирование и т. Д. Исходных данных для использования потребителями.
- Федерация данных - объедините наборы результатов из нескольких исходных систем.
- Доставка данных - публикация наборов результатов в виде представлений и / или служб данных, выполняемых клиентским приложением или пользователями по запросу.
Программное обеспечение виртуализации данных может включать функции для разработки, эксплуатации и / или управления.
Преимущества включают:
- Снизить риск ошибок данных[сомнительный ]
- Уменьшите нагрузку на систему, не перемещая данные[сомнительный ]
- Увеличьте скорость доступа к данным в режиме реального времени
- Позволяет обрабатывать запросы, передаваемые в источник данных, а не на средний уровень
- Большинство систем позволяют конечным пользователям, имеющим доступ к исходным системам, самостоятельно создавать виртуальные базы данных.
- Значительно сократить время разработки и поддержки
- Повышение эффективности управления и снижение рисков за счет использования политик[4]
- Уменьшить объем необходимого хранилища данных[5]
К недостаткам можно отнести:
- Может повлиять на время отклика операционных систем, особенно если они недостаточно масштабированы для обработки непредвиденных запросов пользователей или не настроены на ранней стадии.[6]
- Не навязывает неоднородную модель данных, что означает, что пользователь должен интерпретировать данные, если они не объединены с Федерация данных и понимание данных в бизнесе[7]
- Требуется определенный подход к управлению, чтобы избежать проблем с бюджетом для общих служб.
- Не подходит для записи исторических снимков данных. Хранилище данных лучше для этого[7]
- Управление изменениями «требует огромных накладных расходов, поскольку любые изменения должны приниматься всеми приложениями и пользователями, использующими один и тот же комплект виртуализации»[7]
История
Интеграция корпоративной информации (EII) (впервые придуманный Metamatrix), теперь известный как Red Hat JBoss Data Virtualization, и системы федеративных баз данных - это термины, используемые некоторыми поставщиками для описания основного элемента виртуализации данных: возможности создавать реляционные СОЕДИНЕНИЯ в объединенном представлении.
Смотрите также
- Интеграция данных
- Интеграция корпоративной информации (EII)
- Управление основными данными
- Федерация данных
- Разрозненная система
Рекомендации
- ^ «Что такое виртуализация данных?», Маргарет Роуз, TechTarget.com, получено 19 августа 2013 г.
- ^ Оптимизация данных о клиентах
- ^ а б c «Виртуализация данных становится все более популярной как альтернатива ETL для интеграции данных» Гарет Морган, Computer Weekly, получено 19 августа 2013 г.
- ^ «Быстрый доступ к разрозненным данным в разных проектах без доработки» Informatica, дата обращения 19 августа 2013.
- ^ Виртуализация данных: 6 лучших практик, которые помогут бизнесу добиться успеха Джо МакКендрик, ZDNet, 27 октября 2011 г.
- ^ | ИТ-специалисты раскрывают преимущества и недостатки ПО для виртуализации данных » Марк Брунелли, SearchDataManagement, 11 октября 2012 г.
- ^ а б c «Плюсы и минусы виртуализации данных» Лорейн Лоусон, BusinessEdge, 7 октября 2011 г.
дальнейшее чтение
- Виртуализация данных: выход за рамки традиционной интеграции данных для достижения гибкости бизнеса, Джудит Р. Дэвис и Роберт Ив
- Виртуализация данных для систем бизнес-аналитики: революционная интеграция данных для хранилищ данных, Рик ван дер Ланс
- План интеграции данных и моделирование: методы масштабируемой и устойчивой архитектуры, Энтони Джордано