Skip to content

Manoel/Big-Data-Engineer-Semantix

Repository files navigation



Duração: 2 meses, 110 horas

bootcamp: https://semantix.gupy.io/jobs/1438759

No programa de formação da Semantix Academy você irá aprender os conceitos Big Data, e durante o treinamento você passará por alguns desafios para auxiliar em sua avaliação, habilitando o aluno para atuar profissionalmente na área.
Assim possibiliou que pudesse estudar através de desafios semanais sucessivos que evoluem em complexidade e abrangência.

Conteúdo do bootcamp

Nos links abaixo de cada módulo disponibilizo materiais de trabalhos práticos e desafios estudados no bootcamp:

MÓDULO_1 MÓDULO_2 MÓDULO_3 MÓDULO_4 MÓDULO_5 MÓDULO_6
Semana 1 e 2 Semana 3 Semana 4 Semana 5 Semana 6 e 7 Semana 8, 9 e 10
Big Data Foundations MongoDB Redis Apache Kafka Elastic Essential I Spark - Big Data Processing
• Conhecimento de ferramentas atuais no mercado de Big Data;

• Criação e funcionamento de um cluster Hadoop para Big Data em Docker;

• Manipulação de dados com HDFS;
• Manipulação de dados com uso do Hive;
• Otimização de consultas em grandes volumes de dados estruturados e semiestruturados com uso de Hive;
• Ingestão de dados relacionais para o HDFS/Hive, com uso do Sqoop;

• Otimização de importação no Sqoop;
• Exportação de dados do HDFS para o SGBD, com uso do Sqoop;

• Manipulação de dados com HBase;
• Operações com Dataframe em Spark para processamento de dados em batch;
• Uso do Spark SQL Queries para consultas de dados estruturados e semiestruturados.
• Entendimento de conceitos e arquitetura NoSQL e MongoDB;

• Instalação de cluster MongoDB através de container e Cloud;

• Manipular coleções, documentos e índices;

• Realizar diversas pesquisas no MongoDB com diferentes operadores;

• Fazer uso das interfaces gráficas MongoExpress e MongoCompass;

• Trabalhar com pipeline de agregações;

• Entendimento de Replicação e shards.
• Entendimento de conceitos e arquitetura NoSQL e Redis;

• Instalação de cluster Redis através de container;

• Manipulação de diversos tipos de estrutura de dados com Redis-CLI;

• Implementar paradigma de mensagens Pub/Sub;

• Configurações básicas de persistência de dados.
• Entendimento de conceitos e arquitetura do Kafka e da Confluent;

• Instalação de cluster Kafka através de container;

• Gerenciamento de tópicos;

• Produção e consumo de dados através do console;

• Entendimento das guias do Control Center;

• Desenvolvimento de stream com uso do KSQL;

• Aplicação de KSQL Datagen;

• Produção e consumo de dados com uso do Schema Registry;

• Trabalhando com Kafka Connect;

• Custos com Confluent Cloud;

• Otimização de parâmetros;

• Melhores práticas em um cluster Kafka.
• Entendimento de conceitos e arquitetura da Elastic;

• Instalação de cluster Elastic através de container;

• Realizar operações de CRUD em índices;

• Gerenciamento de índices;

• Alteração de mapeamento e reindex;

• Desenvolvimento de consultas do tipo term, terms, range, match e multi_match, com uso de bool query;

• Aplicação de analyzers em atributos;

• Desenvolvimento de agregações básicas;

• Ingestão de dados através de beats e logstash;

• Entendimento das guias do Kibana;
• Uso do Jupyter Notebooks para a criação de projetos em Spark com Python

• Spark batch intermediario

• Operações com RDD em Spark para processamento de dados em batch;

• Uso de Partições com RDD;

• Operações com Dataset em Spark para processamento de dados em batch;

• Uso de Dataset em Dataframe e RDD;

• Comandos avançados com Dataset;

• Uso do IntelliJ IDEA para a criação de projetos em Spark com Scala;

• Struct Streaming para leitura de dados do Kafka;

• Spark Streaming para leitura de dados do Kafka;

• Otimizações com uso de Variáveis Compartilhadas;

• Criações de User defined Function;

• Configurações de Tunning para o Spark Application.

About

Big-Data-Engineer-Semantix

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages