BigData. Фреймворк Apache Spark

Факультет Data Engineering

Курсовой проект

Написать модель PipelineSparkML

Урок 1. Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных

Что такое Big Data, MapReduce, Hadoop
Что такое Spark
Архитектура Spark
- Компоненты Spark, Spark Core API, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX
- Архитектура приложения Spark
- Driver Program
- Cluster Manager
- Executor
- Запуск Spark на YARN
Принципы исполнения запросов
Сохранение и чтение данных

Урок 2. Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов

DataFrame, schema
- RDD, DataFrame, Создаём статический DataFrame, Spark DataFrame
Операции с данными
Оптимизация запросов

Урок 3. Типы данных в Spark. Коллекции как объекты DataFrame. User-Defined Functions

Дополнение по API
Составные типы данных: Array, Map
User-Defined Functions. Использование UDF в spark.sql
ML-pipelines

Урок 4. Машинное обучение на pySpark на примере линейной регрессии

Spark ML vs MlLib
4 причины строить ML-pipeline, а не просто модели Machine Learning
The machine learning workflow in Spark
Pipeline components. Transformer and Estimator
A Pipeline. Blue — transformations, red — estimator
Sparse data types. Vector
Creating Training and Test Data Sets
Linear Regression

сертификат

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
lesson1		lesson1
lesson2		lesson2
lesson3		lesson3
lesson4		lesson4
README.md		README.md
logo.png		logo.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BigData. Фреймворк Apache Spark

Факультет Data Engineering

Курсовой проект

Урок 1. Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных

Урок 2. Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов

Урок 3. Типы данных в Spark. Коллекции как объекты DataFrame. User-Defined Functions

Урок 4. Машинное обучение на pySpark на примере линейной регрессии

About

Releases

Packages

Languages

TolstikovIgor/ApacheSpark

Folders and files

Latest commit

History

Repository files navigation

BigData. Фреймворк Apache Spark

Факультет Data Engineering

Курсовой проект

Урок 1. Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных

Урок 2. Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов

Урок 3. Типы данных в Spark. Коллекции как объекты DataFrame. User-Defined Functions

Урок 4. Машинное обучение на pySpark на примере линейной регрессии

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages