Библиотека ускорения аналитики данных - Википедия - Data Analytics Acceleration Library

Библиотека ускорения аналитики данных
Разработчики)Intel
изначальный выпуск25 августа 2015 г.; 5 лет назад (2015-08-25)
Стабильный выпуск
Обновление 2020 3/2020; 0 лет назад (2020)[1]
Написано вC ++, Ява, Python[2]
Операционная системаМайкрософт Виндоус, Linux, macOS[2]
ПлатформаIntel Atom, Intel Core, Intel Xeon, Intel Xeon Phi[2]
ТипБиблиотека или же рамки
ЛицензияЛицензия Apache 2.0[3]
Интернет сайтпрограммного обеспечения.intel.com/содержание/ www/нас/ en/развивать/инструменты/ данные-аналитика-ускорение-библиотека.html

Intel Библиотека ускорения аналитики данных (Intel DAAL) это библиотека оптимизированных алгоритмических строительных блоков для анализ данных этапы, наиболее часто связанные с решением Большое количество данных проблемы.[4][5][6][7]

Библиотека поддерживает процессоры Intel и доступна для Windows, Linux и macOS операционные системы.[2] Библиотека предназначена для использования популярных платформ данных, в том числе Hadoop, Искра, р, и Matlab.[4][8]

История

Intel запустила библиотеку ускорения аналитики данных 25 августа 2015 года и назвала ее Intel Data Analytics Acceleration Library 2016 (Intel DAAL 2016).[9] DAAL поставляется с Intel Parallel Studio XE как коммерческий продукт. Автономная версия доступна коммерчески или бесплатно,[3][10] единственная разница связана с поддержкой и обслуживанием.

Лицензия

Лицензия Apache 2.0

Подробности

Функциональные категории

Intel DAAL имеет следующие алгоритмы:[11][4][12]

  • Анализ
    • Моменты низкого порядка: Включает вычисление минимума, максимума, среднего, стандартного отклонения, дисперсии и т. Д. Для набора данных.
    • Квантили: разделение наблюдений на группы равного размера, определяемые порядком квантилей.
    • Матрица корреляции и матрица дисперсии-ковариации: Базовый инструмент для понимания статистической зависимости между переменными. Степень корреляции указывает на тенденцию одного изменения указывать на вероятное изменение другого.
    • Матрица косинусных расстояний: Измерение попарного расстояния с помощью косинусного расстояния.
    • Матрица корреляционных расстояний: Измерение попарного расстояния между элементами с помощью корреляционного расстояния.
    • Кластеризация: Группирование данных в немаркированные группы. Это типичный метод, используемый в «обучении без учителя», когда нет установленной модели, на которую можно было бы положиться. Intel DAAL предоставляет 2 алгоритма кластеризации: K-Means и «EM для GMM».
    • Анализ главных компонентов (PCA): самый популярный алгоритм уменьшения размерности.
    • Правила ассоциации майнинга: Выявление моделей совместной встречаемости. Известный как «добыча корзины для покупок».
    • Преобразование данных посредством матричной декомпозиции: DAAL предоставляет алгоритмы разложения Холецкого, QR и SVD.
    • Обнаружение выбросов: Выявление наблюдений, которые аномально далеки от типичного распределения других наблюдений.
  • Обучение и прогнозирование
    • Регресс
      • Линейная регрессия: Самый простой метод регрессии. Подбор линейного уравнения для моделирования взаимосвязи между зависимыми переменными (вещи, которые нужно предсказать) и объясняющими переменными (вещи, известные).
    • Классификация: Построение модели для распределения элементов по разным помеченным группам. DAAL предоставляет несколько алгоритмов в этой области, включая наивный байесовский классификатор, машину опорных векторов и мультиклассовые классификаторы.
    • Системы рекомендаций
    • Нейронные сети

Intel DAAL поддерживает три режима обработки:

  • Пакетная обработка: Когда все данные помещаются в память, вызывается функция для одновременной обработки всех данных.
  • Онлайн-обработка (также называемая потоковой передачей): когда все данные не помещаются в памяти. Intel® DAAL может обрабатывать блоки данных по отдельности и объединять все частичные результаты на этапе завершения.
  • Распределенная обработка: DAAL поддерживает модель, аналогичную MapReduce. Потребители в кластере обрабатывают локальные данные (этап карты), а затем процесс производителя собирает и объединяет частичные результаты от потребителей (этап сокращения). Intel DAAL предлагает гибкость в этом режиме, полностью оставляя функции связи разработчику. Разработчики могут выбрать использование перемещения данных в такой среде, как Hadoop или Spark, или явное кодирование обмена данными, скорее всего, с помощью MPI.

Рекомендации

  1. ^ «Примечания к выпуску библиотеки Intel® Data Analytics Acceleration». software.intel.com.
  2. ^ а б c d Библиотека ускорения Intel® Data Analytics (Intel® DAAL) | Программное обеспечение Intel®
  3. ^ а б «Проект с открытым исходным кодом: библиотека Intel Data Analytics Acceleration (DAAL)».
  4. ^ а б c "DAAL github".
  5. ^ «Intel обновляет набор инструментов разработчика с библиотекой ускорения аналитики данных».
  6. ^ «Intel добавляет функции больших данных в математические библиотеки».
  7. ^ «Intel использует ядро ​​HPC для поддержки инструментов аналитики». nextplatform.com. 2015-08-25.
  8. ^ «Попробуйте Intel DAAL для обработки больших данных».
  9. ^ «Библиотека ускорения Intel Data Analytics».
  10. ^ «Лицензирование сообществом библиотек производительности Intel».
  11. ^ Руководство разработчика для Intel (R) Data Analytics Acceleration Library 2020
  12. ^ «Введение в Intel DAAL, часть 1: Полиномиальная регрессия с вычислением в пакетном режиме».

внешняя ссылка