Рейнольд Синь - Reynold Xin
Рейнольд Синь | |
---|---|
Альма-матер | Калифорнийский университет в Беркли (докторантура) Университет Торонто (Бакалавр наук) |
Известен | Apache Spark, Датабрики |
Научная карьера | |
Поля | Информатика |
Докторант | Майкл Дж. Франклин |
Рейнольд Синь это специалист в области информатики и инженер специализируясь на большое количество данных, распределенные системы, и облачные вычисления. Он является соучредителем и главным архитектором Датабрики.[1] Он наиболее известен своей работой над Apache Spark, который по состоянию на июнь 2016 г.[Обновить] это топ с открытым исходным кодом Большое количество данных проект.[2] Он разработал и возглавил разработку GraphX, Project Tungsten и Structured Streaming, и он DataFrames - все они являются частью основного дистрибутива Apache Spark - плюс служили диспетчером выпуска для выпуска Spark 2.0.[3]
биография
Калифорнийский университет в Беркли
Синь начал свою работу над проектом с открытым исходным кодом Spark, когда он был кандидатом наук в Калифорнийский университет в Беркли AMPLab.
Первый исследовательский проект Shark,[4] создали систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду Best Demo Award на SIGMOD 2012.[5] Shark был одним из первых интерактивных SQL-запросов с открытым исходным кодом в системах Hadoop, заявив, что он был в 10-100 раз быстрее, чем Apache Hive. Shark использовался технологическими компаниями, такими как Yahoo,[6] хотя в 2014 году ее заменила более новая система под названием Spark SQL.[7]
Второй исследовательский проект GraphX,[8] создал систему обработки графиков поверх Spark, общей системы параллельных данных. GraphX в то же время поставил под сомнение представление о том, что для вычисления графов необходимы специализированные системы. GraphX был выпущен как проект с открытым исходным кодом и в 2014 году объединен с Spark в качестве библиотеки обработки графиков на Spark.
Датабрики
В 2013 году вместе с Матей Захария и другие ключевые участники Spark, Синь является соучредителем Датабрики, венчурная компания из Сан-Франциско, предлагающая платформу данных как услугу на основе Spark.
В 2014 году Синь возглавил команду инженеров из Databricks для участия в тесте Sort Benchmark и выиграл мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд, установленный компанией Apache Hadoop в 30 раз.[9] Синь утверждал, что Spark был самым быстрым движком с открытым исходным кодом для сортировки петабайтов данных.[10]
Находясь в Databricks, он также начал проект DataFrames,[11] Проект Вольфрам,[12] и структурированная потоковая передача.[13] DataFrames стал основным API, а Tungsten - новым механизмом выполнения.
Рекомендации
- ^ «Рейнольд Синь: профиль и биография руководителя - Businessweek». bloomberg.com. Bloomberg Businessweek. Получено 21 сентября 2016.
- ^ Вуди, Алекс (8 июня 2016 г.). «Принятие Apache Spark в цифрах». datanami.com. Tabor Communications. Получено 21 сентября 2016.
- ^ «Список разработчиков Apache Spark - [ОБЪЯВЛЕНИЕ] объявляет о выпуске Apache Spark 2.0.0». apache-spark-developers-list.1001551.n3.nabble.com. Получено 2016-08-04.
- ^ Xin, Reynold S .; Розен, Джош; Захария, Матей; Франклин, Майкл Дж .; Шенкер, Скотт; Стойка, Ион (01.01.2013). «Акула: SQL и обширная аналитика в масштабе». Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г.. SIGMOD '13. Нью-Йорк, Нью-Йорк, США: ACM: 13–24. Дои:10.1145/2463676.2465288. ISBN 9781450320375.
- ^ «Shark получает награду за лучшее демо на SIGMOD 2012». AMPLab - Калифорнийский университет в Беркли. Получено 2016-08-04.
- ^ Талли. «Аналитика Spark & Shark @Yahoo» (PDF).
- ^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark». 2014-07-01. Получено 2016-08-04.
- ^ Gonzalez, Joseph E .; Xin, Reynold S .; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж .; Стойка, Ион (01.01.2014). «GraphX: обработка графиков в среде распределенного потока данных». Труды 11-й конференции USENIX по разработке и внедрению операционных систем. OSDI'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164.
- ^ «Запуск обрабатывает 100 терабайт данных за 23 минуты». Получено 2016-08-04.
- ^ «Apache Spark - самый быстрый движок с открытым исходным кодом для сортировки петабайтов». 2014-10-10. Получено 2016-08-04.
- ^ «Введение в DataFrames в Apache Spark для крупномасштабных исследований данных». 2015-02-17. Получено 2016-08-04.
- ^ Вуди, Алекс (4 мая 2015 г.). "Углубитесь в планы большого ускорения Databricks для Apache Spark". datanami.com. Tabor Communications. Получено 21 сентября 2016.
- ^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый механизм структурированной потоковой передачи». datanami.com. Tabor Communications. Получено 21 сентября 2016.