Jump to content

Рейнольд Синь

Рейнольд Синь
Альма-матер Калифорнийский университет в Беркли (доктор философии)
Университет Торонто (бакалавр наук)
Известный Apache Spark , блоки данных
Научная карьера
Поля Информатика
Докторантура Майкл Дж. Франклин

Рейнольд Синь ученый-компьютерщик и инженер, специализирующийся на больших данных , распределенных системах и облачных вычислениях . Он является соучредителем и главным архитектором Databricks . [1] Он наиболее известен своей работой над Apache Spark , ведущим проектом больших данных с открытым исходным кодом . [2] Он был дизайнером и ведущим разработчиком компонентов GraphX , Project Tungsten и Structured Streaming, а также участвовал в разработке DataFrames , которые являются частью основного дистрибутива Apache Spark; он также работал менеджером по выпуску версии Spark 2.0. [3]

Биография

[ редактировать ]

Синь начал свою работу над проектом с открытым исходным кодом Spark, когда был докторантом в AMPLab Калифорнийского университета в Беркли . Он получил докторскую степень. получил степень бакалавра компьютерных наук в Беркли, где его консультантами были Майкл Дж. Франклин и Ион Стойка . [4]

Первый исследовательский проект «Акула» [5] создал систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду за лучшую демо-версию на SIGMOD 2012. [6] Shark был одним из первых интерактивных SQL-кодов с открытым исходным кодом в системах Hadoop. По утверждениям, он был в 10–100 раз быстрее, чем Apache Hive . Shark использовался такими технологическими компаниями, как Yahoo, [7] хотя в 2014 году она была заменена более новой системой под названием Spark SQL. [8]

Второй исследовательский проект GraphX, [9] создал систему обработки графов поверх Spark, общей системы параллельных данных. GraphX ​​в то же время бросил вызов идее о том, что для вычислений на графах необходимы специализированные системы. GraphX ​​был выпущен как проект с открытым исходным кодом и объединен со Spark в 2014 году как библиотека обработки графов в Spark.

Блоки данных

[ редактировать ]

В 2013 году вместе с Матеем Захарией и другими ключевыми участниками Spark Синь стал соучредителем Databricks , венчурной компании, базирующейся в Сан-Франциско, которая предлагает платформу данных как услугу на базе Spark.

В 2014 году Синь возглавил команду инженеров Databricks для участия в Sort Benchmark и установил мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд Apache Hadoop в 30 раз. [10] Синь утверждал, что Spark — самая быстрая система с открытым исходным кодом для сортировки петабайтов данных. [11]

Работая в Databricks, он также запустил проект DataFrames. [12] Проект Вольфрам, [13] и структурированная потоковая передача. [14] DataFrames стал основополагающим API, а Tungsten стал новым механизмом выполнения.

  1. ^ «Рейнольд Синь: профиль и биография руководителя - Businessweek» . Bloomberg.com . Блумберг Бизнесуик . Проверено 21 сентября 2016 г.
  2. ^ Вуди, Алекс (8 июня 2016 г.). «Внедрение Apache Spark в цифрах» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
  3. ^ «Список разработчиков Apache Spark — [ОБЪЯВЛЕНИЕ] Анонс Apache Spark 2.0.0» . apache-spark-developers-list.1001551.n3.nabble.com . Проверено 4 августа 2016 г.
  4. ^ «Спикер Рейнольд Синь» . engsci.utoronto.ca . 5 октября 2020 г.
  5. ^ Синь, Рейнольд С.; Розен, Джош; Захария, Матей; Франклин, Майкл Дж.; Шенкер, Скотт; Стойка, Ион (1 января 2013 г.). "Акула". Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. СИГМОД '13. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 13–24. дои : 10.1145/2463676.2465288 . ISBN  9781450320375 . S2CID   1597960 .
  6. ^ «Shark получила награду за лучшую демо-версию на SIGMOD 2012» . AMPLab — Калифорнийский университет в Беркли . 24 мая 2012 года . Проверено 4 августа 2016 г.
  7. ^ Талли. «Аналитика Spark & ​​Shark @Yahoo» (PDF) .
  8. ^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark» . 01 июля 2014 г. Проверено 4 августа 2016 г.
  9. ^ Гонсалес, Джозеф Э.; Синь, Рейнольд С.; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж.; Стойка, Ион (1 января 2014 г.). «GraphX: обработка графов в среде распределенных потоков данных» . Материалы 11-й конференции USENIX по проектированию и внедрению операционных систем . ОСДИ'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN  9781931971164 .
  10. ^ Финли, Клинт. «Стартап обрабатывает 100 терабайт данных за рекордные 23 минуты» . Проводной . Проверено 4 августа 2016 г.
  11. ^ «Apache Spark — самый быстрый движок с открытым исходным кодом для сортировки петабайтов» . 10 октября 2014 г. Проверено 4 августа 2016 г.
  12. ^ «Представляем фреймы данных в Apache Spark для крупномасштабной обработки данных» . 17 февраля 2015 г. Проверено 4 августа 2016 г.
  13. ^ Вуди, Алекс (4 мая 2015 г.). «Глубокое погружение в большие планы Databricks по ускорению Apache Spark» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
  14. ^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый движок структурированной потоковой передачи» . datanami.com . Таборские коммуникации . Проверено 21 сентября 2016 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cd516101186c6ba53747f9025af11333__1707155280
URL1:https://arc.ask3.ru/arc/aa/cd/33/cd516101186c6ba53747f9025af11333.html
Заголовок, (Title) документа по адресу, URL1:
Reynold Xin - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)