Duração:
2 meses, 110 horas
bootcamp: https://semantix.gupy.io/jobs/1438759
No programa de formação da Semantix Academy você irá aprender os conceitos Big Data, e durante o treinamento você passará por alguns desafios para auxiliar em sua avaliação, habilitando o aluno para atuar profissionalmente na área.
Assim possibiliou que pudesse estudar através de desafios semanais sucessivos que evoluem em complexidade e abrangência.
Nos links abaixo de cada módulo disponibilizo materiais de trabalhos práticos e desafios estudados no bootcamp:
MÓDULO_1 | MÓDULO_2 | MÓDULO_3 | MÓDULO_4 | MÓDULO_5 | MÓDULO_6 |
---|---|---|---|---|---|
Semana 1 e 2 | Semana 3 | Semana 4 | Semana 5 | Semana 6 e 7 | Semana 8, 9 e 10 |
Big Data Foundations | MongoDB | Redis | Apache Kafka | Elastic Essential I | Spark - Big Data Processing |
• Conhecimento de ferramentas atuais no mercado de Big Data; • Criação e funcionamento de um cluster Hadoop para Big Data em Docker; • Manipulação de dados com HDFS; • Manipulação de dados com uso do Hive; • Otimização de consultas em grandes volumes de dados estruturados e semiestruturados com uso de Hive; • Ingestão de dados relacionais para o HDFS/Hive, com uso do Sqoop; • Otimização de importação no Sqoop; • Exportação de dados do HDFS para o SGBD, com uso do Sqoop; • Manipulação de dados com HBase; • Operações com Dataframe em Spark para processamento de dados em batch; • Uso do Spark SQL Queries para consultas de dados estruturados e semiestruturados. |
• Entendimento de conceitos e arquitetura NoSQL e MongoDB; • Instalação de cluster MongoDB através de container e Cloud; • Manipular coleções, documentos e índices; • Realizar diversas pesquisas no MongoDB com diferentes operadores; • Fazer uso das interfaces gráficas MongoExpress e MongoCompass; • Trabalhar com pipeline de agregações; • Entendimento de Replicação e shards. |
• Entendimento de conceitos e arquitetura NoSQL e Redis; • Instalação de cluster Redis através de container; • Manipulação de diversos tipos de estrutura de dados com Redis-CLI; • Implementar paradigma de mensagens Pub/Sub; • Configurações básicas de persistência de dados. |
• Entendimento de conceitos e arquitetura do Kafka e da Confluent; • Instalação de cluster Kafka através de container; • Gerenciamento de tópicos; • Produção e consumo de dados através do console; • Entendimento das guias do Control Center; • Desenvolvimento de stream com uso do KSQL; • Aplicação de KSQL Datagen; • Produção e consumo de dados com uso do Schema Registry; • Trabalhando com Kafka Connect; • Custos com Confluent Cloud; • Otimização de parâmetros; • Melhores práticas em um cluster Kafka. |
• Entendimento de conceitos e arquitetura da Elastic; • Instalação de cluster Elastic através de container; • Realizar operações de CRUD em índices; • Gerenciamento de índices; • Alteração de mapeamento e reindex; • Desenvolvimento de consultas do tipo term, terms, range, match e multi_match, com uso de bool query; • Aplicação de analyzers em atributos; • Desenvolvimento de agregações básicas; • Ingestão de dados através de beats e logstash; • Entendimento das guias do Kibana; |
• Uso do Jupyter Notebooks para a criação de projetos em Spark com Python • Spark batch intermediario • Operações com RDD em Spark para processamento de dados em batch; • Uso de Partições com RDD; • Operações com Dataset em Spark para processamento de dados em batch; • Uso de Dataset em Dataframe e RDD; • Comandos avançados com Dataset; • Uso do IntelliJ IDEA para a criação de projetos em Spark com Scala; • Struct Streaming para leitura de dados do Kafka; • Spark Streaming para leitura de dados do Kafka; • Otimizações com uso de Variáveis Compartilhadas; • Criações de User defined Function; • Configurações de Tunning para o Spark Application. |