Рейнольд Синь

Рейнольд Синь
Рейнольд Синь
Альма-матер	Калифорнийский университет в Беркли (доктор философии) ; Университет Торонто (бакалавр наук)
Известный	Apache Spark , блоки данных
	Научная карьера
Поля	Информатика
Докторантура	Майкл Дж. Франклин

Рейнольд Синь — ученый-компьютерщик и инженер, специализирующийся на больших данных , распределенных системах и облачных вычислениях . Он является соучредителем и главным архитектором Databricks . ^[1] Он наиболее известен своей работой над Apache Spark , ведущим проектом больших данных с открытым исходным кодом . ^[2] Он был дизайнером и ведущим разработчиком компонентов GraphX , Project Tungsten и Structured Streaming, а также участвовал в разработке DataFrames , которые являются частью основного дистрибутива Apache Spark; он также работал менеджером по выпуску версии Spark 2.0. ^[3]

Биография

Беркли

Синь начал свою работу над проектом с открытым исходным кодом Spark, когда был докторантом в AMPLab Калифорнийского университета в Беркли . Он получил докторскую степень. получил степень бакалавра компьютерных наук в Беркли, где его консультантами были Майкл Дж. Франклин и Ион Стойка . ^[4]

Первый исследовательский проект «Акула» ^[5] создал систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду за лучшую демо-версию на SIGMOD 2012. ^[6] Shark был одним из первых интерактивных SQL-кодов с открытым исходным кодом в системах Hadoop. По утверждениям, он был в 10–100 раз быстрее, чем Apache Hive . Shark использовался такими технологическими компаниями, как Yahoo, ^[7] хотя в 2014 году она была заменена более новой системой под названием Spark SQL. ^[8]

Второй исследовательский проект GraphX, ^[9] создал систему обработки графов поверх Spark, общей системы параллельных данных. GraphX в то же время бросил вызов идее о том, что для вычислений на графах необходимы специализированные системы. GraphX был выпущен как проект с открытым исходным кодом и объединен со Spark в 2014 году как библиотека обработки графов в Spark.

Блоки данных

В 2013 году вместе с Матеем Захарией и другими ключевыми участниками Spark Синь стал соучредителем Databricks , венчурной компании, базирующейся в Сан-Франциско, которая предлагает платформу данных как услугу на базе Spark.

В 2014 году Синь возглавил команду инженеров Databricks для участия в Sort Benchmark и установил мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд Apache Hadoop в 30 раз. ^[10] Синь утверждал, что Spark — самая быстрая система с открытым исходным кодом для сортировки петабайтов данных. ^[11]

Работая в Databricks, он также запустил проект DataFrames. ^[12] Проект Вольфрам, ^[13] и структурированная потоковая передача. ^[14] DataFrames стал основополагающим API, а Tungsten стал новым механизмом выполнения.

Ссылки

^ «Рейнольд Синь: профиль и биография руководителя - Businessweek» . Bloomberg.com . Блумберг Бизнесуик . Проверено 21 сентября 2016 г.
^ Вуди, Алекс (8 июня 2016 г.). «Внедрение Apache Spark в цифрах» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
^ «Список разработчиков Apache Spark — [ОБЪЯВЛЕНИЕ] Анонс Apache Spark 2.0.0» . apache-spark-developers-list.1001551.n3.nabble.com . Проверено 4 августа 2016 г.
^ «Спикер Рейнольд Синь» . engsci.utoronto.ca . 5 октября 2020 г.
^ Синь, Рейнольд С.; Розен, Джош; Захария, Матей; Франклин, Майкл Дж.; Шенкер, Скотт; Стойка, Ион (1 января 2013 г.). "Акула". Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. СИГМОД '13. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 13–24. дои : 10.1145/2463676.2465288 . ISBN 9781450320375 . S2CID 1597960 .
^ «Shark получила награду за лучшую демо-версию на SIGMOD 2012» . AMPLab — Калифорнийский университет в Беркли . 24 мая 2012 года . Проверено 4 августа 2016 г.
^ Талли. «Аналитика Spark & Shark @Yahoo» (PDF) .
^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark» . 01 июля 2014 г. Проверено 4 августа 2016 г.
^ Гонсалес, Джозеф Э.; Синь, Рейнольд С.; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж.; Стойка, Ион (1 января 2014 г.). «GraphX: обработка графов в среде распределенных потоков данных» . Материалы 11-й конференции USENIX по проектированию и внедрению операционных систем . ОСДИ'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164 .
^ Финли, Клинт. «Стартап обрабатывает 100 терабайт данных за рекордные 23 минуты» . Проводной . Проверено 4 августа 2016 г.
^ «Apache Spark — самый быстрый движок с открытым исходным кодом для сортировки петабайтов» . 10 октября 2014 г. Проверено 4 августа 2016 г.
^ «Представляем фреймы данных в Apache Spark для крупномасштабной обработки данных» . 17 февраля 2015 г. Проверено 4 августа 2016 г.
^ Вуди, Алекс (4 мая 2015 г.). «Глубокое погружение в большие планы Databricks по ускорению Apache Spark» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый движок структурированной потоковой передачи» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.

[1] «Рейнольд Синь: профиль и биография руководителя - Businessweek» . Bloomberg.com . Блумберг Бизнесуик . Проверено 21 сентября 2016 г.

[2] Вуди, Алекс (8 июня 2016 г.). «Внедрение Apache Spark в цифрах» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.

[3] «Список разработчиков Apache Spark — [ОБЪЯВЛЕНИЕ] Анонс Apache Spark 2.0.0» . apache-spark-developers-list.1001551.n3.nabble.com . Проверено 4 августа 2016 г.

[4] «Спикер Рейнольд Синь» . engsci.utoronto.ca . 5 октября 2020 г.

[5] Синь, Рейнольд С.; Розен, Джош; Захария, Матей; Франклин, Майкл Дж.; Шенкер, Скотт; Стойка, Ион (1 января 2013 г.). "Акула". Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. СИГМОД '13. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 13–24. дои : 10.1145/2463676.2465288 . ISBN 9781450320375 . S2CID 1597960 .

[6] «Shark получила награду за лучшую демо-версию на SIGMOD 2012» . AMPLab — Калифорнийский университет в Беркли . 24 мая 2012 года . Проверено 4 августа 2016 г.

[7] Талли. «Аналитика Spark & Shark @Yahoo» (PDF) .

[8] «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark» . 01 июля 2014 г. Проверено 4 августа 2016 г.

[9] Гонсалес, Джозеф Э.; Синь, Рейнольд С.; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж.; Стойка, Ион (1 января 2014 г.). «GraphX: обработка графов в среде распределенных потоков данных» . Материалы 11-й конференции USENIX по проектированию и внедрению операционных систем . ОСДИ'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164 .

[10] Финли, Клинт. «Стартап обрабатывает 100 терабайт данных за рекордные 23 минуты» . Проводной . Проверено 4 августа 2016 г.

[11] «Apache Spark — самый быстрый движок с открытым исходным кодом для сортировки петабайтов» . 10 октября 2014 г. Проверено 4 августа 2016 г.

[12] «Представляем фреймы данных в Apache Spark для крупномасштабной обработки данных» . 17 февраля 2015 г. Проверено 4 августа 2016 г.

[13] Вуди, Алекс (4 мая 2015 г.). «Глубокое погружение в большие планы Databricks по ускорению Apache Spark» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.

[14] Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый движок структурированной потоковой передачи» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]