Batch обработка с Apache Spark

Егор Пахомов
Егор Пахомов
Егор — Spark contributor. Занимался интеграцией Spark в Яндекс Островах и Yandex Data Factory. Работает в AlpineNow, компания занимающаяся разработкой BI инструмента для Apache Spark.
На лекции рассматривается технология для batch и streaming обработки больших данных Apache Spark. Существует ряд проблем, с которыми инженеры сталкиваются, работая с большими данными: нехватки объёма диска одной машины для хранения данных, сложность разработки параллельных алгоритмов, etc. На протяжении долгого времени стандартом в индустрии для решения этих проблем являлся Hadoop, но ряд архитектурных недостатков этого фреймворка не позволяет ему справляться с новыми вызовами больших данных: machine learning, streaming, интерактивная работа с данными. Spark предложил новую вычислительную модель — RDD, в которой это всё стало возможно. Рассматриваются основные принципы этой модели и примеры кода. Важной частью любого big data framework является инфраструктура вокруг него. Обзорно рассматриваются основные библиотеки, написанные в рамках RDD: GraphX для графовой обработки данных, MLLib для machine learning, Spark Streaming для стриминга, SparkSQL, а также виды деплоинга spark кластера и тулы, облегчающие работу дата аналитиков.