Апач Стрела
Разработчик(и) | Фонд программного обеспечения Apache |
---|---|
Первоначальный выпуск | 10 октября 2016 г |
Стабильная версия | 13.0.0 [1] ![]() |
Репозиторий | https://github.com/apache/arrow |
Написано в | C , C++ , C# , Go , Java , JavaScript , MATLAB , Python , R , Ruby , Rust |
Тип | Формат данных, алгоритмы |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | стрелка |
Apache Arrow — это независимая от языка программная платформа для разработки приложений для анализа данных, обрабатывающих столбчатые данные . Он содержит стандартизированный формат памяти, ориентированный на столбцы, который способен представлять плоские и иерархические данные для эффективных аналитических операций на современных процессорах и графических процессорах. [2] [3] [4] [5] [6] Это уменьшает или устраняет факторы, ограничивающие возможность работы с большими наборами данных, такие как стоимость, нестабильность или физические ограничения динамической оперативной памяти . [7]
Совместимость
[ редактировать ]Arrow можно использовать с Apache Parquet , Apache Spark , NumPy , PySpark , pandas и другими библиотеками обработки данных.Проект включает в себя собственные библиотеки программного обеспечения, написанные на C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby и Rust. Arrow обеспечивает чтение с нулевым копированием, а также быстрый доступ к данным и обмен ими без накладных расходов на сериализацию между этими языками и системами. [2]
Приложения
[ редактировать ]Arrow использовалась в различных областях, включая аналитику, [8] геномика, [9] [7] и облачные вычисления. [10]
Сравнение с Apache Parquet и ORC
[ редактировать ]Apache Parquet и Apache ORC — популярные примеры форматов столбчатых данных на диске. Arrow разработан как дополнение к этим форматам для обработки данных в памяти. [11] Компромиссы при разработке аппаратных ресурсов для обработки в памяти отличаются от тех, которые связаны с хранением на диске. [12] Проекты Arrow и Parquet включают библиотеки, позволяющие читать и записывать данные между двумя форматами. [13]
Управление
[ редактировать ]Apache Arrow был анонсирован Apache Software Foundation 17 февраля 2016 г. [14] при этом разработку возглавляет коалиция разработчиков из других проектов по анализу данных с открытым исходным кодом. [15] [16] [6] [17] [18] Исходная кодовая база и библиотека Java были заложены кодом из Apache Drill . [14]
Ссылки
[ редактировать ]- ^ «Apache Arrow 13.0.0 (23 августа 2023 г.)» . 23 августа 2023 г. Проверено 21 сентября 2023 г.
- ^ Jump up to: а б «Apache Arrow и распределенные вычисления с Kubernetes» . 13 декабря 2018 г.
- ^ Баер, Тони (17 февраля 2016 г.). «Apache Arrow: выстраивание уток в ряд... или в столбец» . В поисках Альфа .
- ^ Баер, Тони (25 февраля 2019 г.). «Apache Arrow: маленький ускоритель данных, который может» . ЗДНет .
- ^ Холл, Сьюзен (23 февраля 2016 г.). «Столбчатое расположение данных Apache Arrow может ускорить Hadoop, Spark» . Новый стек .
- ^ Jump up to: а б Егулалп, Сердар (27 февраля 2016 г.). «Цель Apache Arrow — ускорить доступ к большим данным» . Инфомир .
- ^ Jump up to: а б Танвир Ахмад (2019). «ArrowSAM: обработка данных геномики в памяти с помощью Apache Arrow Framework» . bioRxiv : 741843. doi : 10.1101/741843 .
- ^ Динсмор Т.В. (2016). «Аналитика в памяти: удовлетворение потребности в скорости». Прорывная аналитика . Апресс, Беркли, Калифорния. стр. 97–116. дои : 10.1007/978-1-4842-1311-7_5 . ISBN 978-1-4842-1312-4 .
- ^ Версачи Ф, Пиредду Л, Занетти Г (2016). «Масштабируемая геномика: от необработанных данных к согласованному чтению в Apache YARN» (PDF) . Международная конференция IEEE по большим данным : 1232–1241.
- ^ Маас М., Асанович К., Кубятович Дж. (2017). «Возвращение сред выполнения: переосмысление языковой системы выполнения для эпохи облака 3.0» . Материалы 16-го семинара по актуальным темам операционных систем (ACM) : 138–143. дои : 10.1145/3102980.3103003 .
- ^ Ле Дем, Жюльен. «Apache Arrow и Apache Parquet: почему нам нужны разные проекты для столбчатых данных, на диске и в памяти» . КДнаггетс .
- ^ «Apache Arrow против Parquet и ORC: действительно ли нам нужен третий проект Apache для столбчатого представления данных?» . 2017-10-31.
- ^ «PyArrow: Чтение и запись формата паркета Apache» .
- ^ Jump up to: а б «Фонд программного обеспечения Apache® объявляет Apache Arrow™ проектом высшего уровня» . Блог Apache Software Foundation . 17 февраля 2016 г. Архивировано из оригинала 13 марта 2016 г.
- ^ Мартин, Александр Дж. (17 февраля 2016 г.). «Фонд Apache объявляет Apache Arrow проектом высшего уровня» . Регистр .
- ^ «Большие данные получили новый проект с открытым исходным кодом, Apache Arrow: он обеспечивает более чем 100-кратное повышение производительности аналитических рабочих нагрузок», — говорится в сообщении фонда . 17 февраля 2016 г. Архивировано из оригинала 27 июля 2016 г. Проверено 31 января 2018 г.
- ^ Ле Дем, Жюльен (28 ноября 2016 г.). «Первый выпуск Apache Arrow» . СД Таймс .
- ^ «Жюльен Ле Дем о будущем столбцово-ориентированной обработки данных с помощью Apache Arrow» .
Внешние ссылки
[ редактировать ]- Apache Arrow Веб-сайт проекта
- Apache Arrow на GitHub Исходный код проекта