Библиотека ускорения аналитики данных - Википедия - Data Analytics Acceleration Library
Разработчики) | Intel |
---|---|
изначальный выпуск | 25 августа 2015 г. |
Стабильный выпуск | Обновление 2020 3/2020[1] |
Написано в | C ++, Ява, Python[2] |
Операционная система | Майкрософт Виндоус, Linux, macOS[2] |
Платформа | Intel Atom, Intel Core, Intel Xeon, Intel Xeon Phi[2] |
Тип | Библиотека или же рамки |
Лицензия | Лицензия Apache 2.0[3] |
Интернет сайт | программного обеспечения |
Intel Библиотека ускорения аналитики данных (Intel DAAL) это библиотека оптимизированных алгоритмических строительных блоков для анализ данных этапы, наиболее часто связанные с решением Большое количество данных проблемы.[4][5][6][7]
Библиотека поддерживает процессоры Intel и доступна для Windows, Linux и macOS операционные системы.[2] Библиотека предназначена для использования популярных платформ данных, в том числе Hadoop, Искра, р, и Matlab.[4][8]
История
Intel запустила библиотеку ускорения аналитики данных 25 августа 2015 года и назвала ее Intel Data Analytics Acceleration Library 2016 (Intel DAAL 2016).[9] DAAL поставляется с Intel Parallel Studio XE как коммерческий продукт. Автономная версия доступна коммерчески или бесплатно,[3][10] единственная разница связана с поддержкой и обслуживанием.
Лицензия
Лицензия Apache 2.0
Подробности
Функциональные категории
Intel DAAL имеет следующие алгоритмы:[11][4][12]
- Анализ
- Моменты низкого порядка: Включает вычисление минимума, максимума, среднего, стандартного отклонения, дисперсии и т. Д. Для набора данных.
- Квантили: разделение наблюдений на группы равного размера, определяемые порядком квантилей.
- Матрица корреляции и матрица дисперсии-ковариации: Базовый инструмент для понимания статистической зависимости между переменными. Степень корреляции указывает на тенденцию одного изменения указывать на вероятное изменение другого.
- Матрица косинусных расстояний: Измерение попарного расстояния с помощью косинусного расстояния.
- Матрица корреляционных расстояний: Измерение попарного расстояния между элементами с помощью корреляционного расстояния.
- Кластеризация: Группирование данных в немаркированные группы. Это типичный метод, используемый в «обучении без учителя», когда нет установленной модели, на которую можно было бы положиться. Intel DAAL предоставляет 2 алгоритма кластеризации: K-Means и «EM для GMM».
- Анализ главных компонентов (PCA): самый популярный алгоритм уменьшения размерности.
- Правила ассоциации майнинга: Выявление моделей совместной встречаемости. Известный как «добыча корзины для покупок».
- Преобразование данных посредством матричной декомпозиции: DAAL предоставляет алгоритмы разложения Холецкого, QR и SVD.
- Обнаружение выбросов: Выявление наблюдений, которые аномально далеки от типичного распределения других наблюдений.
- Обучение и прогнозирование
- Регресс
- Линейная регрессия: Самый простой метод регрессии. Подбор линейного уравнения для моделирования взаимосвязи между зависимыми переменными (вещи, которые нужно предсказать) и объясняющими переменными (вещи, известные).
- Классификация: Построение модели для распределения элементов по разным помеченным группам. DAAL предоставляет несколько алгоритмов в этой области, включая наивный байесовский классификатор, машину опорных векторов и мультиклассовые классификаторы.
- Системы рекомендаций
- Нейронные сети
- Регресс
Intel DAAL поддерживает три режима обработки:
- Пакетная обработка: Когда все данные помещаются в память, вызывается функция для одновременной обработки всех данных.
- Онлайн-обработка (также называемая потоковой передачей): когда все данные не помещаются в памяти. Intel® DAAL может обрабатывать блоки данных по отдельности и объединять все частичные результаты на этапе завершения.
- Распределенная обработка: DAAL поддерживает модель, аналогичную MapReduce. Потребители в кластере обрабатывают локальные данные (этап карты), а затем процесс производителя собирает и объединяет частичные результаты от потребителей (этап сокращения). Intel DAAL предлагает гибкость в этом режиме, полностью оставляя функции связи разработчику. Разработчики могут выбрать использование перемещения данных в такой среде, как Hadoop или Spark, или явное кодирование обмена данными, скорее всего, с помощью MPI.
Рекомендации
- ^ «Примечания к выпуску библиотеки Intel® Data Analytics Acceleration». software.intel.com.
- ^ а б c d Библиотека ускорения Intel® Data Analytics (Intel® DAAL) | Программное обеспечение Intel®
- ^ а б «Проект с открытым исходным кодом: библиотека Intel Data Analytics Acceleration (DAAL)».
- ^ а б c "DAAL github".
- ^ «Intel обновляет набор инструментов разработчика с библиотекой ускорения аналитики данных».
- ^ «Intel добавляет функции больших данных в математические библиотеки».
- ^ «Intel использует ядро HPC для поддержки инструментов аналитики». nextplatform.com. 2015-08-25.
- ^ «Попробуйте Intel DAAL для обработки больших данных».
- ^ «Библиотека ускорения Intel Data Analytics».
- ^ «Лицензирование сообществом библиотек производительности Intel».
- ^ Руководство разработчика для Intel (R) Data Analytics Acceleration Library 2020
- ^ «Введение в Intel DAAL, часть 1: Полиномиальная регрессия с вычислением в пакетном режиме».