SAP IQ - SAP IQ

SAP IQ (ранее известный как SAP Sybase IQ или же Sybase IQ; IQ за Интеллектуальный запрос) это на основе столбца, петабайтный масштаб, реляционная база данных программная система, используемая для бизнес-аналитика, хранилище данных, и витрины данных. Произведено Sybase Inc., теперь SAP компании, ее основная функция - анализировать большие объемы данных в недорогой и высокодоступной среде. SAP IQ часто приписывают[1] с первопроходцем в коммерциализации технологий колонных магазинов.

В основе SAP IQ лежит технология колоночного хранилища, которая позволяет выполнять сжатие данных и проводить специальный анализ. SAP IQ использует подход с открытым интерфейсом к своей экосистеме. SAP IQ также интегрирован с портфелем продуктов SAP Business Intelligence, чтобы сформировать комплексный программный стек для бизнес-аналитики, и является неотъемлемым компонентом архитектуры SAP In-Memory Data Fabric и платформы управления данными.

История

В начале 1990-х годов компания Expressway Technologies, Inc. из Уолтема, штат Массачусетс, разработала скоростную автомагистраль 103, на основе столбца, движок, оптимизированный для аналитики, который в конечном итоге стал Sybase IQ. Sybase приобрела Expressway и повторно представила продукт в 1995 году как IQ Accelerator, а вскоре после этого переименовала его в Sybase IQ, присвоив ему номер версии 11.0.[2]

Предлагая продукт IQ как часть набора связанных технологий, часто встречающихся в хранилищах данных (включая Sybase Adaptive Server Enterprise, Сервер репликации, PowerDesigner PowerDesigner, и SQL Anywhere ), Sybase стала одной из первых крупных компаний, осознавших потребность в специализированных продуктах для рынка хранилищ данных.[3]

В версии 12.0 Sybase заменила слабо связанный интерфейс запросов от Adaptive Server Enterprise на тесную связь с SQL Anywhere.

Версия 16 предлагает переработанное хранилище столбцов для экстремального, петабайтного масштаба, объемов данных и более экстремального сжатия данных.[4]

В 2014 году SAP HANA вместе с партнерами BMMsoft, HP, Intel, NetApp и Red Hat объявила о создании крупнейшего в мире хранилища данных. Команда инженеров из SAP, BMMsoft, HP, Intel, NetApp и Red Hat создала хранилище данных с использованием SAP HANA и SAP IQ 16, при этом BMMsoft Federated EDMT работает на серверах HP DL580 с процессорами Intel Xeon E7-4870 под Red Hat. Enterprise Linux 6 и хранилище NetApp FAS6290 и E5460. Разработка и тестирование хранилища данных на 12,1 ПБ проводились лабораторией SAP / Intel Petascale в Санта-Кларе, штат Калифорния, и проверены InfoSizing, независимым сертифицированным аудитором Совета по обработке транзакций.[5]

История версий

С выпуском SP08 номера версий были изменены, чтобы соответствовать и соответствовать номерам версий SAP HANA, чтобы отразить непрерывная интеграция с SAP HANA. Фактическое название выпуска SP03 является продолжением SP02 и охватывает все платформы, не затронутые выпуском.

Фабрика данных в памяти

Новый подход SAP оптимизирует и упрощает хранение данных в структуре данных в памяти.[6]

Архитектура SAP In-Memory Data Fabric

SAP IQ с SAP HANA

С появлением большое количество данных SAP IQ объединился с SAP HANA, чтобы предоставить платформу распределенной аналитики в памяти. Существует три основных приложения и сценария использования, которые пытаются извлечь выгоду из сильных сторон SAP IQ, касающихся масштабируемости и производительности в качестве процессора EDW и больших данных, при одновременном использовании скорости оперативной памяти SAP HANA для оперативной отчетности:

SAP IQ как услуга прямого доступа (NLS) к SAP HANA

https://blogs.sap.com/2016/10/12/sap-nls-solution-sap-bw

SAP HANA для оперативной отчетности с SAP IQ для обработки больших данных (NLS)

В этом сценарии данные SAP Enterprise Resource Planning (ERP) поступают в SAP HANA, которая действует как хранилище операционных данных для немедленного анализа. После анализа данные интегрируются в SAP IQ через механизмы хранения Near-line (как описано выше). Здесь SAP IQ действует как корпоративное хранилище данных, которое получает данные из различных традиционных источников (таких как базы данных OLTP и файловые системы), и SAP HANA Operational Data Store (ODS).[7]

https://blogs.sap.com/2019/05/22/q-the-easy-installer-for-sap-iq/

SAP IQ как корпоративное хранилище данных (EDW) с SAP HANA как гибкая витрина данных

Когда SAP IQ используется в качестве EDW, он также может быть дополнен технологией HANA in-memory. Обычно используются отчеты по планированию и анализу, где требуется одновременная обработка OLTP. В этом случае данные передаются из SAP IQ в SAP HANA.[7] SAP BusinessObjects BI можно использовать для обеспечения прозрачности на обеих платформах.

Технологии

SAP IQ 16 Engine

Для пользователя SAP IQ выглядит так же, как любая реляционная СУБД с языковым слоем на основе SQL, доступным через ODBC /JDBC драйверы. Однако внутри Sybase IQ представляет собой колоночная СУБД, который хранит таблицы данных как разделы столбцов данных, а не как строки данных, как в большинстве транзакционных баз данных.

Архитектура колонного магазина

Ориентация на столбцы имеет ряд преимуществ.[8] Если выполняется поиск элементов, соответствующих определенному значению в столбце данных, необходимо получить доступ только к объектам хранения, соответствующим этому столбцу данных в таблице. Традиционная база данных на основе строк должна читать всю таблицу сверху вниз. Еще одно преимущество состоит в том, что при правильном индексировании значение, которое должно быть сохранено один раз в каждой строке данных в традиционной базе данных, сохраняется только один раз, а в SAP IQ для доступа к данным используется n-битовый индекс.[9] Nbit и многоуровневое индексирование используются для увеличения сжатия и быстрой инкрементной пакетной загрузки.

Кроме того, хранилище на основе столбцов позволяет SAP IQ эффективно сжимать данные «на лету».[10]

Технология индексирования

До SAP IQ 16 каждая страница данных была структурирована как массив ячеек фиксированного размера, поэтому все значения имеют один и тот же тип данных. Хотя этот подход к хранению эффективен для структурированных данных и данных фиксированной длины, он не применим для более неструктурированных данных и данных переменного размера, которые наблюдаются сегодня. Чтобы бороться с неэффективностью хранилища и хранить данные переменного размера с минимальными потерями места, каждая страница состоит из ячеек переменного размера, которые плотно упакованы вместе; Архитектура хранилища столбцов поддерживает переменное количество ячеек на странице и различные форматы страниц в столбце. SAP IQ также применяет алгоритмы сжатия Lempel-Ziv-Welch (LZW).[11] к каждой странице данных при записи на диск, чтобы значительно уменьшить объем данных.[12]

Растровые изображения используются для вторичных индексов.[11]

Фреймворк массовой параллельной обработки

SAP IQ имеет массово-параллельная обработка (MPP) фреймворк, основанный на среде общего доступа, которая поддерживает распределенную обработку запросов. Большинство других продуктов, поддерживающих MPP, как правило, основаны на ничего не поделено среды. Преимущество совместного использования всего заключается в том, что он более гибок с точки зрения разнообразия запросов, которые можно оптимизировать, особенно для балансирования потребностей множества одновременных пользователей. Обратной стороной является то, что в крайних случаях конкуренция между процессорами за доступ к общему пулу хранилища (обычно сети хранения данных) может привести к Ввод / вывод конфликт, который влияет на производительность запроса. [12]

Однако вышеупомянутая архитектура хранения SAP IQ позволяет масштабировать уровни вычислений и хранения независимо друг от друга, а также позволяет выделять эти ресурсы по запросу для лучшего использования без реструктуризации базовой базы данных.

Мультиплексная архитектура

SAP IQ использует кластерную грид-архитектуру, которая состоит из кластеров серверов SAP IQ или Multiplex. Эти кластеры используются для масштабирования производительности для большого количества одновременных запросов или запросов большой сложности. Это построено на общей архитектуре, в которой все вычислительные узлы взаимодействуют с одним и тем же общим хранилищем, а запросы могут распределяться по всем вычислительным узлам. Multiplex имеет узел-координатор, который управляет каталогом базы данных и координирует транзакционные записи в хранилище. Другие узлы могут быть узлами только для чтения или для чтения и записи, как узел-координатор. Фабрика хранения может быть реализована с использованием множества технологий, которые позволяют совместно использовать мультиплексные узлы.

Эта архитектура имеет множество применений, включая балансировку рабочей нагрузки и эластичные виртуальные витрины данных. Балансировка рабочей нагрузки достигается механизмом запросов SAP IQ за счет динамического увеличения / уменьшения параллелизма в ответ на изменения в активности сервера. Автоматическое переключение при отказе происходит, если узел перестает участвовать в запросе, а другие узлы возьмут на себя работу, первоначально назначенную для отказавшего узла, чтобы запрос мог завершиться. На стороне клиента совместимость с внешней балансировкой нагрузки гарантирует, что запросы инициируются на физических серверах сбалансированным образом, чтобы устранить узкие места. Физические узлы в Multiplex могут быть сгруппированы в «логические серверы», что позволяет изолировать рабочие нагрузки друг от друга (в целях безопасности или балансировки ресурсов); машины могут быть добавлены к ним по мере изменения спроса. Цель грид-архитектуры - обеспечить отказоустойчивость даже во время глобальных транзакций.

Загрузка двигателя

Механизм загрузки SAP IQ может использоваться для инкрементной пакетной обработки, низкой задержки, одновременной загрузки и массовой загрузки (как с файлами данных клиента, так и сервера). Процесс массовой загрузки позволяет выполнять несколько процессов загрузки одновременно, если загрузки относятся к разным таблицам. Данные могут быть загружены из других баз данных, а также из файлов. Управление версиями моментальных снимков на уровне страницы допускает одновременную загрузку и запросы, при этом блокировка выполняется только на уровне таблицы. Благодаря SAP Replication Server, который теперь усовершенствован для оптимизации загрузки в SAP IQ, транзакции компилируются в наименьший набор операций, а затем выполняются массовые микропакетные загрузки в SAP IQ, что создает впечатление непрерывных загрузок в реальном времени.

Теперь массовый загрузчик выполняет все операции параллельно, чтобы в полной мере использовать все ядра сервера, устранять узкие места и поддерживать продуктивность всех потоков, вместо того, чтобы сериализовать процесс. Процесс загрузки остается двухэтапным: сначала считываются необработанные данные и создаются индексы FP, а во-вторых, создаются вторичные индексы, но все выполняется параллельно. Индексы High Group, на которые оптимизатор запросов полагается для получения информации о том, какие столбцы / строки содержат какие значения данных, теперь структурированы как набор уровней, увеличивающихся по мере движения вниз по пирамиде.

Наконец, SAP IQ представляет оптимизированное для записи хранилище Delta с версией на уровне строк (RLV), которое обеспечивает быструю загрузку данных и быструю доступность данных для пользователей. Это хранилище минимально индексируется и сжимается, с блокировкой на уровне строк для одновременной записи, собственным журналом транзакций и только для добавления, и действует как дополнение к основному хранилищу, при этом данные загружаются с высокой скоростью в хранилище RLV, и позже переход в основной магазин, периодически сливаясь с ним. Пользователю не кажется, что работают две отдельные сущности, и запросы работают прозрачно в двух магазинах. Чтобы использовать это, пользователи могут указать определенные «горячие» таблицы базы данных как таблицы RLV.

Платформа и клиентские API

SAP IQ предлагает API-интерфейсы запросов, основанные на чистых стандартах ANSI SQL (с некоторыми ограничениями), которые включают поддержку OLAP и полнотекстового поиска. Хранимые процедуры поддерживаются как на диалектах ANSI SQL, так и на диалектах Transact-SQL и могут выполняться по расписанию или немедленно. Также существуют драйверы баз данных для различных языков программирования, таких как JAVA, C / C ++ m PHP, PERL, Python, Ruby и ADO.Net.

Обработка неструктурированных данных

SAP IQ - это аналитическая машина, которая может запрашивать как структурированные, так и неструктурированные данные и объединять результаты. SAP IQ представил новый текстовый индекс и предложение SQL «содержит», чтобы облегчить это путем поиска терминов в блоке неструктурированного текста; Партнерские отношения SAP Sybase с поставщиками позволяют загружать в SAP IQ различные бинарные формы текстовых файлов и создавать для них текстовые индексы; Эти текстовые индексы позволяют подготовить данные для приложений анализа текста более высокого уровня для выполнения полнотекстового поиска в SAP IQ с помощью операторов SELECT. Синтаксис SELECT может использоваться приложениями, выполняющими токенизацию, категоризацию и дальнейший анализ текста.

Платформа аналитики и расширяемости в базе данных

Аналитика в базе данных основана на фундаментальной концепции хранения аналитических алгоритмов рядом с данными для повышения производительности. Платформа расширяемости, называемая «аналитикой в ​​базе данных», позволяет встраивать аналитические функции в ядро ​​базы данных SAP IQ, перемещая аналитику в базу данных, а не в специализированную среду из базы данных - процесс, который подвержен ошибкам и медленнее. Предварительно встроенные функции доступны как изначально, так и через партнеров SAP IQ, предоставляющих специализированные библиотеки статистического анализа и анализа данных, которые подключаются к SAP IQ. Эта структура увеличивает возможности SAP IQ для расширенной обработки и анализа, поскольку данные не нужно переносить из базы данных в специализированную среду для аналитики. Все полученные данные и результаты могут быть переданы через СУБД и могут быть легко получены через интерфейс SQL. С помощью определяемых пользователем функций (UDFS) партнеры могут расширить СУБД с помощью настраиваемых вычислений, предоставляя специализированные библиотеки статистики и интеллектуального анализа данных, которые подключаются прямо к SAP IQ для повышения производительности расширенной обработки и анализа.

Безопасность

SAP IQ предоставляет несколько функций, как включенных в базовый продукт, так и лицензируемых по отдельности, чтобы помочь защитить безопасность данных пользователя. Новая функция, представленная в IQ 16, - это управление доступом на основе ролей (RBAC), которое позволяет разделить обязанности и поддерживает принцип наименьших привилегий, позволяя разбивать привилегированные операции на детализированные наборы, которые могут быть индивидуально предоставлены пользователям. В состав базового продукта входят: пользователи, группы и разрешения, полномочия администрирования базы данных, политики входа в систему пользователей, шифрование базы данных, безопасность транспортного уровня, IPV6, управление доступом на основе ролей и аудит базы данных. Дополнительные функции являются частью лицензируемой опции, называемой расширенной опцией безопасности: шифрование FIPS, аутентификация Kerberos, аутентификация LDAP и шифрование столбцов базы данных.

Управление жизненным циклом информации (ILM)

В рамках ILM SAP IQ позволяет пользователям создавать несколько пользовательских пространств DBSpace (логические единицы хранения / контейнеры для объектов базы данных) для организации данных. Это можно использовать для разделения структурированных и неструктурированных данных, группировки их по возрасту и стоимости или для разделения данных таблицы. DBSpaces также можно пометить как доступные только для чтения, чтобы обеспечить однократную проверку согласованности и резервное копирование. Еще одно применение ILM - это возможность разбивать таблицы и размещать движущиеся части в структуре хранения и резервном копировании; это обеспечивает процесс управления хранилищем, в котором данные циклически проходят через многоуровневое хранилище, переходя от более быстрого и более дорогого хранилища к более медленному и дешевому хранилищу по мере его старения, разделяя данные в соответствии с их стоимостью.

Высокая доступность и аварийное восстановление

Настройка мультиплексирования обеспечивает масштабируемость и высокую доступность для вычислительных узлов, поскольку узел-координатор мультиплексирования может переключиться на альтернативный узел-координатор.

SAP IQ Virtual Backup также позволяет пользователям быстро выполнять резервное копирование данных, и наряду с технологией репликации хранилища данные постоянно копируются, поэтому резервное копирование может происходить быстро и «за кулисами». После завершения виртуальных резервных копий их можно проверить путем тестирования и восстановления; корпоративные данные можно копировать для разработки и тестирования. Затем все, что остается, - это завершить резервное копирование в согласованный с транзакционной точки зрения момент времени. SAP утверждает, что аварийное восстановление становится проще благодаря подходу к MPP, основанному на совместном использовании всего. Инструмент моделирования SAP Sybase PowerDesigner позволяет пользователям создавать модель ILM, которую можно развернуть с SAP IQ. Типы хранилищ, пространства DBSpace и фазы жизненного цикла могут быть определены в модели ILM, а инструмент можно использовать для создания отчетов и создания сценариев создания и перемещения разделов.

Интеграция Hadoop

SAP IQ обеспечивает объединение с распределенной файловой системой Hadoop (HDFS), очень популярной платформой для больших данных, так что корпоративные пользователи могут продолжать хранить данные в Hadoop и использовать его преимущества. Интеграция достигается четырьмя различными способами, в зависимости от потребностей пользователя, посредством федерации на стороне клиента, ETL, данных и федерации запросов. Федерация на стороне клиента объединяет данные из IQ и Hadoop на уровне клиентского приложения, а федерация ETL позволяет пользователю загружать данные Hadoop в схемы хранилища столбцов IQ. Данные HDFS также могут быть объединены с данными IQ на лету с помощью SQL-запросов от IQ, и, наконец, результаты заданий MapReduce могут быть объединены с данными IQ, также на лету.

Центр управления SAP

SAP Control Center заменяет Sybase Central в качестве графического веб-инструмента для администрирования и мониторинга. SAP Control Center можно использовать для мониторинга серверов и ресурсов SAP Sybase (узел, мультиплекс) из любого места, а также для мониторинга производительности и выявления тенденций использования. Веб-приложение имеет многоуровневую архитектуру подключаемых модулей, состоящую из агенты на основе сервера и продукта, которые возвращают производительность SAP Sybase на сервер Control Center.

Веб-аналитика

SAP IQ поставляется с драйверами веб-приложений, облегчающими доступ к SAP IQ из различных сред программирования и выполнения Web 2.0 (Python, Perl, PHP, .Net, Ruby). Посредством объединения запросов с другими базами данных разработчики могут создавать приложения, которые одновременно взаимодействуют с несколькими источниками данных (а также с платформами баз данных других поставщиков). Могут быть созданы таблицы прокси-сервера федерации, которые сопоставляются с таблицами во внешних базах данных; они материализованы как таблицы в памяти, но с ними можно взаимодействовать, как если бы они находились в SAP IQ. Таким образом источники данных могут быть объединены в единое представление.

Поддерживаемые платформы

SAP IQ также поддерживает подключение внешних алгоритмов, написанных на C ++ и Ява. SQL-запросы могут вызывать эти алгоритмы, что позволяет выполнять аналитику в базе данных, что обеспечивает лучшую производительность и масштабируемость. Кроме того, Sybase IQ также предоставляет драйверы для доступа через такие языки, как PHP, Perl, Python, и Рубин на рельсах.

SAP IQ поддерживает большинство основных платформ операционных систем, в том числе:

Клиенты

Sybase утверждает, что Sybase IQ в настоящее время установлен более чем на 2000 сайтах клиентов. Известные клиенты включают comScore Inc.,[13] CoreLogic, Группа инвестиционных технологий (ITG),[14] и Служба внутренних доходов США (IRS).[15]

Хотя Sybase IQ широко использовался для целенаправленного развертывания в стиле витрин данных,[16] он также был развернут как корпоративное хранилище данных.

Рекомендации

  1. ^ C-Store: СУБД, ориентированная на столбцы, Stonebraker и др., Материалы 31-й конференции VLDB, Тронхейм, Норвегия, 2005 г.
  2. ^ Коул, Барб (7 ноября 1994 г.), Sybase делает ставку на хранилище данных за счет приобретения, Сетевой мир
  3. ^ Мур, Тревор (2010), Руководство по выживанию Sybase IQ, п. 16, ISBN  978-1-4466-5758-4
  4. ^ «SAP Sybase IQ 16 для аналитики XLDB уже доступна! - Блоги SAP». scn.sap.com.
  5. ^ «SAP и партнеры установили новый рекорд для крупнейшего в мире хранилища данных». Пресс-релиз. SAP. 5 марта 2014 г.. Получено 19 августа, 2016.
  6. ^ http://www.sap.com/pc/tech/data-warehousing.html
  7. ^ а б «Как все это работает вместе - BW, BW на HANA, Suite на HANA, HANA Live… .. Часть 8 - Блоги SAP». scn.sap.com.
  8. ^ Макникол, Роджер; Френч, Блейн (август 2004 г.), Sybase IQ Multiplex - разработан для аналитики (PDF), Материалы 31-й конференции VLDB, Тронхейм, Норвегия
  9. ^ Sybase IQ # cite note-Moore-1
  10. ^ http://www.sap.com/bin/sapcom/en_us/downloadasset.2013-09-sep-23-13.achieve-analytics-that-are-both-cost-effective-and-optimized-for-performance- pdf.html
  11. ^ а б http://blasthemy.com/sap/TechEd13/1_Session_PDFs/RDP/RDP107/RDP107.pdf
  12. ^ «Dobler Consulting - Sybase - SQL Server - Oracle - MongoDB» (PDF). www.doblerconsulting.com. Архивировано из оригинал (PDF) на 2014-05-29.
  13. ^ Хеншен, Дуг (24 ноября 2010 г.), Подробное описание развертывания больших данных ComScore, Информационная неделя
  14. ^ Кларк, Дон (18 ноября 2007 г.), База данных для начинающих компаний - Nimble Software помогает понять поток информации (PDF), Wall Street Journal, архивировано из оригинал (PDF) 16 августа 2011 г.
  15. ^ Лай, Эрик (22 марта 2008 г.), Проходили аудит в последнее время? Винить массивное сверхбыстрое хранилище данных IRS, ComputerWorld
  16. ^ Хеншен, Дуг (12 июля 2011 г.), Sybase IQ расширяет возможности анализа, Информационная неделя

внешняя ссылка