Apache Spark - это библиотека распределенных данных с открытым исходным кодом для крупномасштабных вычислений данных в области данных.

Из https://spark.apache.org/:

Apache Spark - это кластерная вычислительная система с открытым исходным кодом, которая нацелена на то, чтобы сделать аналитику данных быстрой - как быстро, так и быстро write

Чтобы быстрее запускать программы, Spark предлагает общую модель выполнения, основанную на абстракции данных RDD, которая может помочь оптимизировать произвольные длинные графические диаграммы операторов и поддерживает вычисления в памяти, что позволяет быстрее запрашивать данные чем на дисковых двигателях, таких как hadoop.

Spark не привязан к двухступенчатой ​​парадигме и обещает производительность в 100 раз быстрее, чем Hadoop MapReduce.

Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и запрашивать их повторно, что делает его хорошо подходящим для интерактивных, а также итеративных алгоритмов машинного обучения или графических вычислений.

Чтобы ускорить программирование, Spark предоставляет чистые, сжатые API в scala, java, python и r. Вы также можете использовать Spark в интерактивном режиме из scala, python и r shells для быстрого запроса больших наборов данных.

Spark работает на , мезо, автономно или в облаке. Он может обращаться к различным источникам данных, включая , cassandra, и amazon-s3.

При обращении к Вопросу, связанному с Спарком, пожалуйста, не забудьте привести пример воспроизводимости, когда это применимо.

Последняя стабильная версия:

Apache Spark 2.3.0 - 28 февраля 2018

Последняя стабильная версия:

Apache Spark 2.3.0 - 28 февраля 2018 г. Руководство по программированию искры - показывает каждую из этих функций в каждом из Поддерживаемые языки Spark (Python, Scala, Java) Spark-Summit Прошедшие события Онлайн-материалы курсов по искрообразованию и основные примечания (см. Вкладку PAST EVENTS наверху) Awesome Spark - Удивительная коллекция ресурсов от Github Apache Spark Community Mastering Apache Spark 2 - Заметки о внутренних компонентах Apache Spark, Spark SQL и Spark MLlib Learning Spark - быстрый анализ больших данных AMP Camp 6 (Беркли, Калифорния, 19-20 ноября 2015 г.) AMP Camp 5 (Беркли, Калифорния, 20-21 ноября , 2014) AMP Camp 4 (Strata Santa Clara, февраль 2014) - сосредоточиться на BlinkDB, MLlib, GraphX, Tachyon AMP Camp 3 (Berkeley, CA, Aug 2013) AMP Camp 2 (Strata Santa Clara, февраль 2013) AMP Camp 1 ( Быть rkeley, CA, Aug 2012)