Skip to content

GeekBrains: BigData. Фреймворк Apache Spark

Notifications You must be signed in to change notification settings

TolstikovIgor/ApacheSpark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BigData. Фреймворк Apache Spark

Факультет Data Engineering


Написать модель PipelineSparkML


  • Что такое Big Data, MapReduce, Hadoop
  • Что такое Spark
  • Архитектура Spark
    • Компоненты Spark, Spark Core API, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX
    • Архитектура приложения Spark
    • Driver Program
    • Cluster Manager
    • Executor
    • Запуск Spark на YARN
  • Принципы исполнения запросов
  • Сохранение и чтение данных
  • DataFrame, schema
    • RDD, DataFrame, Создаём статический DataFrame, Spark DataFrame
  • Операции с данными
  • Оптимизация запросов
  • Дополнение по API
  • Составные типы данных: Array, Map
  • User-Defined Functions. Использование UDF в spark.sql
  • ML-pipelines

Урок 4. Машинное обучение на pySpark на примере линейной регрессии

  • Spark ML vs MlLib
  • 4 причины строить ML-pipeline, а не просто модели Machine Learning
  • The machine learning workflow in Spark
  • Pipeline components. Transformer and Estimator
  • A Pipeline. Blue — transformations, red — estimator
  • Sparse data types. Vector
  • Creating Training and Test Data Sets
  • Linear Regression

сертификат

Releases

No releases published

Packages

No packages published