Jump to content

Апач Стрела

Апач Стрела
Разработчик(и) Фонд программного обеспечения Apache
Первоначальный выпуск 10 октября 2016 г .; 7 лет назад ( 10.10.2016 )
Стабильная версия
13.0.0 [1]  Отредактируйте это в Викиданных / 23 августа 2023 г .; 11 месяцев назад ( 23 августа 2023 г. )
Репозиторий https://github.com/apache/arrow
Написано в C , C++ , C# , Go , Java , JavaScript , MATLAB , Python , R , Ruby , Rust
Тип Формат данных, алгоритмы
Лицензия Лицензия Апач 2.0
Веб-сайт стрелка .apache .org

Apache Arrow — это независимая от языка программная платформа для разработки приложений для анализа данных, обрабатывающих столбчатые данные . Он содержит стандартизированный формат памяти, ориентированный на столбцы, который способен представлять плоские и иерархические данные для эффективных аналитических операций на современных процессорах и графических процессорах. [2] [3] [4] [5] [6] Это уменьшает или устраняет факторы, ограничивающие возможность работы с большими наборами данных, такие как стоимость, нестабильность или физические ограничения динамической оперативной памяти . [7]

Совместимость

[ редактировать ]

Arrow можно использовать с Apache Parquet , Apache Spark , NumPy , PySpark , pandas и другими библиотеками обработки данных.Проект включает в себя собственные библиотеки программного обеспечения, написанные на C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby и Rust. Arrow обеспечивает чтение с нулевым копированием, а также быстрый доступ к данным и обмен ими без накладных расходов на сериализацию между этими языками и системами. [2]

Приложения

[ редактировать ]

Arrow использовалась в различных областях, включая аналитику, [8] геномика, [9] [7] и облачные вычисления. [10]

Сравнение с Apache Parquet и ORC

[ редактировать ]

Apache Parquet и Apache ORC — популярные примеры форматов столбчатых данных на диске. Arrow разработан как дополнение к этим форматам для обработки данных в памяти. [11] Компромиссы при разработке аппаратных ресурсов для обработки в памяти отличаются от тех, которые связаны с хранением на диске. [12] Проекты Arrow и Parquet включают библиотеки, позволяющие читать и записывать данные между двумя форматами. [13]

Управление

[ редактировать ]

Apache Arrow был анонсирован Apache Software Foundation 17 февраля 2016 г. [14] при этом разработку возглавляет коалиция разработчиков из других проектов по анализу данных с открытым исходным кодом. [15] [16] [6] [17] [18] Исходная кодовая база и библиотека Java были заложены кодом из Apache Drill . [14]

  1. ^ «Apache Arrow 13.0.0 (23 августа 2023 г.)» . 23 августа 2023 г. Проверено 21 сентября 2023 г.
  2. ^ Jump up to: а б «Apache Arrow и распределенные вычисления с Kubernetes» . 13 декабря 2018 г.
  3. ^ Баер, Тони (17 февраля 2016 г.). «Apache Arrow: выстраивание уток в ряд... или в столбец» . В поисках Альфа .
  4. ^ Баер, Тони (25 февраля 2019 г.). «Apache Arrow: маленький ускоритель данных, который может» . ЗДНет .
  5. ^ Холл, Сьюзен (23 февраля 2016 г.). «Столбчатое расположение данных Apache Arrow может ускорить Hadoop, Spark» . Новый стек .
  6. ^ Jump up to: а б Егулалп, Сердар (27 февраля 2016 г.). «Цель Apache Arrow — ускорить доступ к большим данным» . Инфомир .
  7. ^ Jump up to: а б Танвир Ахмад (2019). «ArrowSAM: обработка данных геномики в памяти с помощью Apache Arrow Framework» . bioRxiv : 741843. doi : 10.1101/741843 .
  8. ^ Динсмор Т.В. (2016). «Аналитика в памяти: удовлетворение потребности в скорости». Прорывная аналитика . Апресс, Беркли, Калифорния. стр. 97–116. дои : 10.1007/978-1-4842-1311-7_5 . ISBN  978-1-4842-1312-4 .
  9. ^ Версачи Ф, Пиредду Л, Занетти Г (2016). «Масштабируемая геномика: от необработанных данных к согласованному чтению в Apache YARN» (PDF) . Международная конференция IEEE по большим данным : 1232–1241.
  10. ^ Маас М., Асанович К., Кубятович Дж. (2017). «Возвращение сред выполнения: переосмысление языковой системы выполнения для эпохи облака 3.0» . Материалы 16-го семинара по актуальным темам операционных систем (ACM) : 138–143. дои : 10.1145/3102980.3103003 .
  11. ^ Ле Дем, Жюльен. «Apache Arrow и Apache Parquet: почему нам нужны разные проекты для столбчатых данных, на диске и в памяти» . КДнаггетс .
  12. ^ «Apache Arrow против Parquet и ORC: действительно ли нам нужен третий проект Apache для столбчатого представления данных?» . 2017-10-31.
  13. ^ «PyArrow: Чтение и запись формата паркета Apache» .
  14. ^ Jump up to: а б «Фонд программного обеспечения Apache® объявляет Apache Arrow™ проектом высшего уровня» . Блог Apache Software Foundation . 17 февраля 2016 г. Архивировано из оригинала 13 марта 2016 г.
  15. ^ Мартин, Александр Дж. (17 февраля 2016 г.). «Фонд Apache объявляет Apache Arrow проектом высшего уровня» . Регистр .
  16. ^ «Большие данные получили новый проект с открытым исходным кодом, Apache Arrow: он обеспечивает более чем 100-кратное повышение производительности аналитических рабочих нагрузок», — говорится в сообщении фонда . 17 февраля 2016 г. Архивировано из оригинала 27 июля 2016 г. Проверено 31 января 2018 г.
  17. ^ Ле Дем, Жюльен (28 ноября 2016 г.). «Первый выпуск Apache Arrow» . СД Таймс .
  18. ^ «Жюльен Ле Дем о будущем столбцово-ориентированной обработки данных с помощью Apache Arrow» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bdbdaa2cd22a52c9a9602ace7a59fc38__1712874480
URL1:https://arc.ask3.ru/arc/aa/bd/38/bdbdaa2cd22a52c9a9602ace7a59fc38.html
Заголовок, (Title) документа по адресу, URL1:
Apache Arrow - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)