Logo do curso
Curso

PySpark:

processamento e modelagem em larga escala

Quero estudar na alura

8h

Para conclusão

17

Pessoas nesse curso

Certificado

De participação

Introdução_

O que você aprenderá_

  • Leia diferentes formatos de dados (CSV, JSON, Parquet) e carregue-os em DataFrames do PySpark.
  • Modele e transforme grandes volumes de dados aplicando joins, agregações e funções de janela para análises avançadas.
  • Otimize consultas e pipelines aproveitando conceitos de Lazy Evaluation e o Catalyst Optimizer.
  • Construa pipelines de processamento e de modelagem com suporte de IA que integrem etapas de transformação e preparo de features.
  • Treine, valide e compare modelos de regressão e classificação usando validação cruzada e ajuste de hiperparâmetros.
  • Salve e reutilize pipelines e modelos para aplicar previsões em novos conjuntos de dados.

Público alvo_

Profissionais e estudantes de dados, como analistas, cientistas de dados e desenvolvedores Python, que desejam aprender a processar grandes volumes com Spark e construir pipelines de modelagem. Recomenda-se conhecimento prévio de SQL e Python.

Vitor Mello

Vitor Mello

linkedin

Sou Senior Staff Data Scientist na Neon , com passagens por empresas como Nubank e QuintoAndar. Especialista em Machine Learning e Modelagem Causal , sou mestre em Estatística pela USP e graduado em Engenharia Civil pela Unicamp. Tenho sólida experiência no desenvolvimento de modelos de alta complexidade para risco e rentabilidade.

Curso atualizado em 02/04/2026

Ementa

  1. Fundamentos do Spark e PySpark

    • Apresentação
    • Preparando o ambiente
    • Conhecendo Spark
    • Instalando o PySpark
    • Spark Session
    • Catalyst Optimizer na otimização de consultas de segurança
    • Para saber mais: catalyst optimizer do Apache Spark
    • O que aprendemos?
  2. Entrada e Saída de Dados

    • Explicando o projeto
    • Lendo arquivos csv
    • Lendo Json
    • Lendo parquet e multi files
    • Salvando arquivos
    • Para saber mais: coalesce no spark
    • Garantindo a integridade dos dados de segurança
    • Integração de dados de dispositivos no HomeHub
    • O que aprendemos?
  3. Seleções, Criação de Colunas e Transformações Essenciais

    • Criando o target
    • Criando features sobre pagamento
    • Criando feature sobre a entrega
    • Funcoes string
    • Para saber mais: renomeação dinâmica de colunas
    • Otimizando transmissões ao vivo na VideoFlowNow
    • O que aprendemos?
  4. Agregações, GroupBy e Joins

    • Função de agregação
    • Junções
    • Impacto de Nulos no Spark
    • Identificando interações populares no CodeConnect
    • O que aprendemos?
  5. Window Functions

    • Window e row number
    • Para saber mais: configuração de janela no pyspark
    • Window e lag e rows between
    • Analisando padrões de escuta na Playcatch
    • O que aprendemos?
  6. Consultas, Ordenação e Spark SQL

    • SQL Query
    • SQL Expression
    • Para saber mais: uso de selectExpr
    • Gerenciamento de dados financeiros com SQL
    • O que aprendemos?
  7. Preparação de Dados para Machine Learning com PySpark MLlib

    • Imputer
    • OneHotEncoder
    • Normalização e Pipeline
    • Para saber mais: representação de vetores esparsos
    • Automatizando o pré-processamento de dados para campanhas de marketing
    • O que aprendemos?
  8. Modelagem Preditiva e Pipelines em MLlib

    • Modelo Classificação
    • Para saber mais: gradient boosting: fundamentos e variações
    • Modelo de Regressão
    • Otimização de lineup no CodeChella
    • O que aprendemos?
  9. Avaliação, Otimização e Deploy Técnico de Modelos

    • Otimização de Hiperparâmetros
    • Fluxo Completo
    • Para saber mais: uso da seed na divisão de dados
    • Otimização de parâmetros para recomendações de produtos na Tratotech
    • conclusão
    • Projeto
    • O que aprendemos?

Descubra se esse curso é pra você! Leia as primeiras aulas

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos
Escola

Data Science

Trabalhe com dados. Aprofunde seu conhecimento nas principais ferramentas de uma pessoa data scientist. Descubra as diferentes possibilidades de análise de dados, do Excel ao Python, e mergulhe em frameworks e bibliotecas, como Pandas, Scikit-Learn e Seaborn.

Conheça a escola

Faça parte da nossa comunidade no discord!

Troque conhecimentos com a comunidade da Alura

Aprenda Engenharia de Dados com esse e outros cursos, comece agora!

Conheça os Planos para Empresas