Рейнольд Синь
Рейнольд Синь | |
---|---|
Альма-матер | Калифорнийский университет в Беркли (доктор философии) Университет Торонто (бакалавр наук) |
Известный | Apache Spark , блоки данных |
Научная карьера | |
Поля | Информатика |
Докторантура | Майкл Дж. Франклин |
Рейнольд Синь — ученый-компьютерщик и инженер, специализирующийся на больших данных , распределенных системах и облачных вычислениях . Он является соучредителем и главным архитектором Databricks . [1] Он наиболее известен своей работой над Apache Spark , ведущим проектом больших данных с открытым исходным кодом . [2] Он был дизайнером и ведущим разработчиком компонентов GraphX , Project Tungsten и Structured Streaming, а также участвовал в разработке DataFrames , которые являются частью основного дистрибутива Apache Spark; он также работал менеджером по выпуску версии Spark 2.0. [3]
Биография
[ редактировать ]Беркли
[ редактировать ]Синь начал свою работу над проектом с открытым исходным кодом Spark, когда был докторантом в AMPLab Калифорнийского университета в Беркли . Он получил докторскую степень. получил степень бакалавра компьютерных наук в Беркли, где его консультантами были Майкл Дж. Франклин и Ион Стойка . [4]
Первый исследовательский проект «Акула» [5] создал систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду за лучшую демо-версию на SIGMOD 2012. [6] Shark был одним из первых интерактивных SQL-кодов с открытым исходным кодом в системах Hadoop. По утверждениям, он был в 10–100 раз быстрее, чем Apache Hive . Shark использовался такими технологическими компаниями, как Yahoo, [7] хотя в 2014 году она была заменена более новой системой под названием Spark SQL. [8]
Второй исследовательский проект GraphX, [9] создал систему обработки графов поверх Spark, общей системы параллельных данных. GraphX в то же время бросил вызов идее о том, что для вычислений на графах необходимы специализированные системы. GraphX был выпущен как проект с открытым исходным кодом и объединен со Spark в 2014 году как библиотека обработки графов в Spark.
Блоки данных
[ редактировать ]В 2013 году вместе с Матеем Захарией и другими ключевыми участниками Spark Синь стал соучредителем Databricks , венчурной компании, базирующейся в Сан-Франциско, которая предлагает платформу данных как услугу на базе Spark.
В 2014 году Синь возглавил команду инженеров Databricks для участия в Sort Benchmark и установил мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд Apache Hadoop в 30 раз. [10] Синь утверждал, что Spark — самая быстрая система с открытым исходным кодом для сортировки петабайтов данных. [11]
Работая в Databricks, он также запустил проект DataFrames. [12] Проект Вольфрам, [13] и структурированная потоковая передача. [14] DataFrames стал основополагающим API, а Tungsten стал новым механизмом выполнения.
Ссылки
[ редактировать ]- ^ «Рейнольд Синь: профиль и биография руководителя - Businessweek» . Bloomberg.com . Блумберг Бизнесуик . Проверено 21 сентября 2016 г.
- ^ Вуди, Алекс (8 июня 2016 г.). «Внедрение Apache Spark в цифрах» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
- ^ «Список разработчиков Apache Spark — [ОБЪЯВЛЕНИЕ] Анонс Apache Spark 2.0.0» . apache-spark-developers-list.1001551.n3.nabble.com . Проверено 4 августа 2016 г.
- ^ «Спикер Рейнольд Синь» . engsci.utoronto.ca . 5 октября 2020 г.
- ^ Синь, Рейнольд С.; Розен, Джош; Захария, Матей; Франклин, Майкл Дж.; Шенкер, Скотт; Стойка, Ион (1 января 2013 г.). "Акула". Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. СИГМОД '13. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 13–24. дои : 10.1145/2463676.2465288 . ISBN 9781450320375 . S2CID 1597960 .
- ^ «Shark получила награду за лучшую демо-версию на SIGMOD 2012» . AMPLab — Калифорнийский университет в Беркли . 24 мая 2012 года . Проверено 4 августа 2016 г.
- ^ Талли. «Аналитика Spark & Shark @Yahoo» (PDF) .
- ^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark» . 01 июля 2014 г. Проверено 4 августа 2016 г.
- ^ Гонсалес, Джозеф Э.; Синь, Рейнольд С.; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж.; Стойка, Ион (1 января 2014 г.). «GraphX: обработка графов в среде распределенных потоков данных» . Материалы 11-й конференции USENIX по проектированию и внедрению операционных систем . ОСДИ'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164 .
- ^ Финли, Клинт. «Стартап обрабатывает 100 терабайт данных за рекордные 23 минуты» . Проводной . Проверено 4 августа 2016 г.
- ^ «Apache Spark — самый быстрый движок с открытым исходным кодом для сортировки петабайтов» . 10 октября 2014 г. Проверено 4 августа 2016 г.
- ^ «Представляем фреймы данных в Apache Spark для крупномасштабной обработки данных» . 17 февраля 2015 г. Проверено 4 августа 2016 г.
- ^ Вуди, Алекс (4 мая 2015 г.). «Глубокое погружение в большие планы Databricks по ускорению Apache Spark» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
- ^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый движок структурированной потоковой передачи» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
Для этой статьи необходимы дополнительные или более конкретные категории . ( февраль 2021 г. ) |