Apache Arrow - Apache Arrow
Разработчики) | Фонд программного обеспечения Apache |
---|---|
изначальный выпуск | 10 октября 2016 г. |
Стабильный выпуск | v2.0.0[1] / 12 октября 2020 г. |
Репозиторий | https://github.com/apache/arrow |
Написано в | C, C ++, C #, Идти, Ява, JavaScript, MATLAB, Python, р, Рубин, Ржавчина |
Тип | Формат данных, алгоритмы |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | стрелка |
Apache Arrow это не зависящий от языка программная среда для разработки приложений для анализа данных, которые обрабатывают столбчатые данные. Он содержит стандартизованный формат памяти с ориентацией на столбцы, который может представлять плоские и иерархические данные для эффективных аналитических операций на современных ЦПУ и GPU аппаратное обеспечение.[2][3][4][5][6] Это уменьшает или устраняет факторы, ограничивающие возможность работы с большими наборами данных, такие как стоимость, непостоянство или физические ограничения динамическая память с произвольным доступом.[7]
Совместимость
Стрелку можно использовать с Паркет Apache, Apache Spark, NumPy, PySpark, панды и другие библиотеки обработки данных. В проект включены собственные программные библиотеки написано в C ++, C # .NET, Go, Java, JavaScript и Rust с привязки для других языков программирования, таких как Python, R и Ruby. Arrow обеспечивает чтение с нулевым копированием, быстрый доступ к данным и обмен ими без дополнительных затрат на сериализацию между этими языками и системами.[2]
Приложения
Стрелка использовалась в различных областях, включая аналитику,[8] геномика[9][7] и облачные вычисления.[10]
Сравнение с Apache Parquet и ORC
Apache Parquet и Apache ORC являются популярными примерами форматов столбчатых данных на диске. Стрелка разработана как дополнение к этим форматам для обработки данных в памяти.[11] Компромиссы при проектировании аппаратных ресурсов для обработки в памяти отличаются от тех, которые связаны с хранением на диске.[12] В проекты Arrow и Parquet входят библиотеки, которые позволяют читать и записывать данные между двумя форматами.[13]
Управление
Apache Arrow был анонсирован Фонд программного обеспечения Apache 17 февраля 2016 г.,[14] с разработкой, возглавляемой коалицией разработчиков из других проектов анализа данных с открытым исходным кодом.[15][16][6][17][18] Исходная кодовая база и библиотека Java были засеяны кодом из Apache Drill.[14]
Рекомендации
- ^ "Arrow Github релизы".
- ^ а б «Apache Arrow и распределенные вычисления с Kubernetes». 13 декабря 2018.
- ^ Баер, Тони (17 февраля 2016 г.). "Apache Arrow: выстраивание уток в ряд ... или столбец". В поисках альфы.
- ^ Баер, Тони (25 февраля 2019 г.). "Apache Arrow: маленький ускоритель данных, который может". ZDNet.
- ^ Холл, Сьюзен (23 февраля 2016 г.). «Столбцовое расположение данных Apache Arrow может ускорить работу Hadoop, Spark». Новый стек.
- ^ а б Егулалп, Сердар (27 февраля 2016 г.). «Apache Arrow стремится ускорить доступ к большим данным». InfoWorld.
- ^ а б Танвир Ахмад (2019). "ArrowSAM: обработка данных геномики в памяти с помощью Apache Arrow Framework". bioRxiv: 741843. Дои:10.1101/741843.
- ^ Динсмор Т.В. (2016). «Аналитика в памяти». Аналитика в памяти. В: Подрывная аналитика. Апресс, Беркли, Калифорния. С. 97–116. Дои:10.1007/978-1-4842-1311-7_5. ISBN 978-1-4842-1312-4.
- ^ Версачи Ф, Пиредду Л, Занетти Дж (2016). «Масштабируемая геномика: от необработанных данных до выровненного чтения на Apache YARN» (PDF). Международная конференция IEEE по большим данным: 1232–1241.
- ^ Маас М., Асанович К., Кубятович Дж. (2017). «Возвращение среды выполнения: переосмысление системы языковой среды выполнения для эпохи облака 3.0» (PDF). Труды 16-го семинара по горячим темам в операционных системах (ACM): 138–143. Дои:10.1145/3102980.3103003.
- ^ Ле Дем, Жюльен. «Apache Arrow и Apache Parquet: зачем нужны разные проекты для столбчатых данных, на диске и в памяти». KDnuggets.
- ^ «Apache Arrow против Parquet и ORC: действительно ли нам нужен третий проект Apache для столбчатого представления данных?». 2017-10-31.
- ^ «PyArrow: чтение и запись в формате Apache Parquet».
- ^ а б «Фонд программного обеспечения Apache® объявляет Apache Arrow ™ проектом высшего уровня». Блог Apache Software Foundation.
- ^ Мартин, Александр Дж. (17 февраля 2016 г.). «Apache Foundation выпускает Apache Arrow как проект верхнего уровня». Реестр.
- ^ «Большие данные получают новый проект с открытым исходным кодом, Apache Arrow: он предлагает более чем 100-кратное повышение производительности аналитических рабочих нагрузок, - заявляет фонд». 2016-02-17.
- ^ Ле Дем, Жюльен (28 ноября 2016 г.). «Первый выпуск Apache Arrow». SD Times.
- ^ «Жюльен Ле Дем о будущем обработки данных, ориентированной на столбцы, с помощью Apache Arrow».
внешняя ссылка
- Apache Arrow сайт проекта
- Apache Arrow GitHub исходный код проекта