Престо (система запросов SQL)
Оригинальный автор(ы) | Мартин Траверсо, Дэйн Сандстрем, Дэвид Филлипс, Эрик Хван |
---|---|
Первоначальный выпуск | 10 ноября 2013 г |
Написано в | Ява |
Операционная система | Кросс-платформенный |
Стандарт (ы) | SQL |
Тип | Хранилище данных |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт |
Presto (включая PrestoDB и PrestoSQL, переименованный в Trino ) — это механизм распределенных запросов для больших данных с использованием языка запросов SQL . Его архитектура позволяет пользователям запрашивать такие источники данных, как Hadoop , Cassandra , Kafka , AWS S3 , Alluxio , MySQL , MongoDB и Teradata . [1] и позволяет использовать несколько источников данных в запросе. созданное сообществом Presto — это программное обеспечение с открытым исходным кодом, и выпущенное по лицензии Apache .
История
[ редактировать ]Presto изначально был спроектирован и разработан в Facebook, Inc. (позже переименованной в Meta) для аналитиков данных, позволяющих выполнять интерактивные запросы в ее большом хранилище данных в Apache Hadoop . Первыми четырьмя разработчиками были Мартин Траверсо, Дэйн Сундстрем, Дэвид Филлипс и Эрик Хван. До Presto аналитики данных в Facebook полагались на Apache Hive для выполнения SQL-аналитики в своем многопетабайтном хранилище данных. [2] Hive считался слишком медленным для масштабов Facebook, и Presto был изобретен, чтобы заполнить пробел в выполнении быстрых запросов. [3] Первоначальная разработка началась в 2012 году и была развернута в Facebook позже в том же году. В ноябре 2013 года Facebook объявил о выпуске с открытым исходным кодом. [3] [4]
В 2014 году Netflix сообщила, что использовала Presto для хранения 10 петабайт данных, хранящихся в Amazon Simple Storage Service (S3). [5] В ноябре 2016 года Amazon анонсировала сервис Athena , основанный на Presto. [6] В 2017 году Teradata выделила компанию Starburst Data для коммерческой поддержки Presto, в которую вошел персонал, приобретенный у Hadapt в 2014 году. [7] Программное обеспечение QueryGrid компании Teradata позволило Presto получить доступ к реляционной базе данных Teradata. [8]
В январе 2019 года было объявлено о создании Presto Software Foundation. Фонд представляет собой некоммерческую организацию, занимающуюся продвижением механизма распределенных SQL-запросов Presto с открытым исходным кодом. [9] [10] В то же время разработка Presto разделилась: PrestoDB поддерживается Facebook, а PrestoSQL поддерживается Presto Software Foundation с некоторым перекрестным опылением кода.
В сентябре 2019 года Facebook передал PrestoDB в дар Linux Foundation , создав Presto Foundation . [11] Ни создатели Presto, ни ведущие участники и коммиттеры не были приглашены присоединиться к этому фонду. [12]
К 2020 году все четверо первоначальных разработчиков Presto присоединились к Starburst. [13] В декабре 2020 года PrestoSQL был переименован в Trino , поскольку Facebook получил товарный знак на имя «Presto» (также переданный в дар Linux Foundation). [14]
В 2020 году было объявлено о коммерциализации вилки PrestoDB в качестве облачного сервиса еще одной компании под названием Ahana, которая была приобретена IBM в 2023 году. [15]
Архитектура
[ редактировать ]Архитектура Presto очень похожа на другие системы управления базами данных , использующие кластерные вычисления , иногда называемые массивно-параллельной обработкой (MPP). Один координатор работает синхронно с несколькими работниками. Клиенты отправляют инструкции SQL, которые анализируются и планируются, после чего параллельные задачи планируются для работников. Рабочие процессы совместно обрабатывают строки из источников данных и выдают результаты, которые возвращаются клиенту. По сравнению с исходной моделью выполнения Apache Hive , в которой для каждого запроса использовался механизм Hadoop MapReduce , Presto не записывает промежуточные результаты на диск, что приводит к значительному увеличению скорости. Presto написан на Java .
Запрос Presto может объединять данные из нескольких источников. Presto предлагает соединители для источников данных, включая файлы в Alluxio , распределенную файловую систему Hadoop (часто называемую озером данных ), Amazon S3 , MySQL , PostgreSQL , Microsoft SQL Server , Amazon Redshift , Apache Kudu , Apache Phoenix , Apache Kafka , Apache Cassandra , Apache. Accumulo , MongoDB и Redis . В отличие от других инструментов, специфичных для дистрибутива Hadoop, таких как Apache Impala , Presto может работать с любым вариантом Hadoop или без него. Presto поддерживает разделение вычислений и хранилища и может быть развернут локально или с использованием облачных вычислений .
См. также
[ редактировать ]- Апач Дрель
- Большие данные
- Вычисления с интенсивным использованием данных
- Trino (система запросов SQL)
Ссылки
[ редактировать ]- ^ 1.1. Распространение Presto Teradata — Распространение Presto Teradata 0.167-t.0.2 Документация
- ^ Майк Вольпи (20 ноября 2019 г.). «Звездный взрыв и Престо: со звездной скоростью» . Блог Index Ventures . Проверено 27 января 2022 г.
- ^ Jump up to: а б Джоав Джексон (6 ноября 2013 г.). «Facebook становится открытым исходным кодом с механизмом запросов для больших данных» . Компьютерный мир . Проверено 26 апреля 2017 г.
- ^ Джордан Новет (6 июня 2013 г.). «Facebook представляет движок Presto для запроса хранилища данных объемом 250 ПБ» . Гига Ом . Проверено 26 апреля 2017 г.
- ^ Ева Це; Чжэньсяо Ло; Незих Йигитбаши (7 октября 2014 г.). «Использование Presto в нашей платформе больших данных на AWS» . Технический блог Netflix . Проверено 26 апреля 2017 г.
- ^ Джефф Барр (30 ноября 2016 г.). «Amazon Athena — интерактивные SQL-запросы к данным в Amazon S3» . Блог новостей AWS . Проверено 27 января 2022 г.
- ^ Филип Ховард (21 декабря 2017 г.). «Teradata выделяет Starburst» . Блур . Проверено 26 января 2022 г.
- ^ Линдси Кларк (17 декабря 2020 г.). «Привет, Престо! Teradata признает, что ее концепция мертва, поскольку она подключила аналитическую платформу QueryGrid к конкурирующим хранилищам данных» . Регистр . Проверено 26 января 2022 г.
- ^ «Фонд Presto Software Foundation запускает программу развития сообщества открытого исходного кода Presto» . Пресс-релиз . 31 января 2019 года . Проверено 2 января 2022 г.
- ^ «Новый фундамент Presto сигнализирует о развитии механизма SQL для больших данных» . Новый стек . 31 января 2019 г. Проверено 1 февраля 2019 г.
- ^ «Facebook, Uber, Twitter и Alibaba создают Presto Foundation для решения масштабной распределенной обработки данных» . 23 сентября 2019 г. Проверено 12 ноября 2019 г.
- ^ Петр Финдайзен (22 ноября 2019 г.). «Какая связь между prestosql и prestodb?» . Комментарий к выпуску №38 Trino Github . Проверено 27 января 2022 г.
- ^ «Соавторы оригинального Presto воссоединяются в команде технического руководства Starburst» . Пресс-релиз . 22 сентября 2020 г. . Проверено 26 января 2022 г.
- ^ Мартин Траверсо, Дэйн Сундстрем, Дэвид Филлипс (27 декабря 2020 г.). «Мы переименовываем PrestoSQL в Trino» . Блог Трино . Проверено 26 января 2022 г.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Гиллин, Пол (14 апреля 2023 г.). «IBM приобретает Ahana и присоединяется к Presto Foundation» . КремниевыйУГОЛ . Проверено 20 апреля 2023 г.