Написать модель PipelineSparkML
- Что такое Big Data, MapReduce, Hadoop
- Что такое Spark
- Архитектура Spark
- Компоненты Spark, Spark Core API, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX
- Архитектура приложения Spark
- Driver Program
- Cluster Manager
- Executor
- Запуск Spark на YARN
- Принципы исполнения запросов
- Сохранение и чтение данных
- DataFrame, schema
- RDD, DataFrame, Создаём статический DataFrame, Spark DataFrame
- Операции с данными
- Оптимизация запросов
- Дополнение по API
- Составные типы данных: Array, Map
- User-Defined Functions. Использование UDF в spark.sql
- ML-pipelines
- Spark ML vs MlLib
- 4 причины строить ML-pipeline, а не просто модели Machine Learning
- The machine learning workflow in Spark
- Pipeline components. Transformer and Estimator
- A Pipeline. Blue — transformations, red — estimator
- Sparse data types. Vector
- Creating Training and Test Data Sets
- Linear Regression