55h

Para conclusão

6
Cursos
2
Artigos

Conheça a formação de Databricks

A formação de Databricks busca preparar estudantes para trabalhar com Ciência de Dados e Engenharia de Dados, utilizando recursos do Apache Spark e linguagens como Python e SQL.

Funciona como um guia de aprendizado para auxiliar pessoas interessadas em entrar no mercado de trabalho e também como mecanismo de consulta para profissionais experientes.

O QUE É DATABRICKS?

O Databricks é uma plataforma de computação em nuvem criada para cuidar da análise exploratória, criar modelos de machine learning e processar grandes volumes de dados de uma forma mais simples que as outras ferramentas do mercado. Essa plataforma foi desenvolvida em 2013 pelos mesmos criadores do Apache Spark.

O QUE VAMOS APRENDER?

Nesta formação, vamos conhecer a plataforma Databricks entendendo e aplicando de forma prática alguns conceitos como: análise exploratória, processamento de dados e machine learning.

Você vai aprender a manipular dados utilizando SQL, Python e Pandas. Além disso, vai trabalhar com diferentes formatos de arquivos, como: JSON, CSV, TXT, AVRO, Parquet e ORC. E também vai conhecer a biblioteca MLlib do Spark Core.

Por fim, vamos focar nossos estudos na orquestração de pipelines, integrando o Databricks com outras ferramentas de cloud para auxiliar nesse processo.

QUAIS SÃO OS PRÉ-REQUISITOS PARA FAZER ESSA FORMAÇÃO?

Para aproveitar melhor esse conteúdo, é importante que você já saiba programar em linguagem Python, tenha conhecimento em Spark e saiba conceitos básicos de SQL.

Se você está com dúvida de qual sequência seguir nas formações de Engenharia de Dados, sugerimos que comece seus estudos pela formação Python para Data Science, em seguida faça a formação Primeiros passos com Engenharia de Dados. Após isso, siga pelo caminho de sua preferência: faça as formações Apache Spark com Python e Engenharia de Dados com Databricks, a formação AWS Data Lake: Construindo Pipelines na AWS e/ou a formação Apache Airflow. Seja qual for o caminho que você seguir, finalize a jornada com a formação Fundamentos de Governança de Dados.

Por que estudar esta formação?

  • Guia de aprendizado

    Conteúdos pensados para facilitar seu estudo

  • Do básico ao avançado

    Formação completa para o mercado

  • Você dentro do mercado

    Do zero ao sonhado emprego em sua área de interesse

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Com quem você vai aprender?

  • Allan Segovia Spadini

    Allan trabalha como instrutor de Ciência de dados na Alura desde 2019. Também é um dos autores do livro Séries temporais com Prophet pela Casa do Código.

  • Allan Segovia Spadini

    Allan trabalha como instrutor de Ciência de dados na Alura desde 2019. Também é um dos autores do livro Séries temporais com Prophet pela Casa do Código.

  • Nara Miranda Guimarães

  • Nara Miranda Guimarães

  • Rodrigo Fernando Dias

    Rodrigo é estatístico e especialista em Big Data com forte interesse em geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e tech lead da escola de dados da Alura.

  • Rodrigo Fernando Dias

    Rodrigo é estatístico e especialista em Big Data com forte interesse em geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e tech lead da escola de dados da Alura.

  • Sarah David Müzel

  • Sarah David Müzel

  • Bruno Raphaell

    Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.

  • Bruno Raphaell

    Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.

  • Millena Gená Pereira

    Millena Gená é estudante de Ciência da Computação. Atualmente, é Instrutora de Dados aqui na Alura atuando principalmente na área de Engenharia de dados. Ela está sempre procurando aprender algo novo sobre tecnologia e é apaixonada por novas aventuras. Programar e ajudar as pessoas são seus hobbies favoritos! ^^

  • Millena Gená Pereira

    Millena Gená é estudante de Ciência da Computação. Atualmente, é Instrutora de Dados aqui na Alura atuando principalmente na área de Engenharia de dados. Ela está sempre procurando aprender algo novo sobre tecnologia e é apaixonada por novas aventuras. Programar e ajudar as pessoas são seus hobbies favoritos! ^^

  • Igor Nascimento Alves

    Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.

  • Igor Nascimento Alves

    Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.

Passo a passo
  1. 1 Manipulando dados

    Neste passo inicial, preparamos um conteúdo para ajudar você a conhecer melhor o Databricks, como navegar na plataforma e manipular dados utilizando Python e SQL.

    Na primeira etapa dessa jornada, você vai aprender os principais recursos da plataforma Databricks, entender como configurar e criar um cluster, usar comandos SQL utilizando Hive e SparkSQL e também entender as vantagens e desvantagens de utilizar os diferentes tipos de arquivos. No final dessa etapa, você será capaz de manipular dados utilizando os principais recursos do Databricks.

    • Artigo Databricks: o que é e para que serve? | Alura

    • Curso Databricks: conhecendo a ferramenta

      08h
      • Aprenda a utilizar a plataforma Databricks
      • Entenda alguns conceitos e ferramentas de Big Data
      • Aprenda a configurar e criar um cluster
      • Saiba como trabalhar com notebooks na plataforma do Databricks
      • Aprenda a usar comandos SQL no Databricks utilizando Hive e SparkSQL
      • Conheça o Hive e como utilizá-lo na plataforma
    • Curso Databricks: trabalhando com diversos formatos e tipos de arquivos

      08h
      • Compreenda os conceitos dos formatos de arquivo JSON, CSV, TXT, AVRO, Parquet e ORC
      • Entenda as vantagens e desvantagens de utilizar os diferentes tipos de arquivos
      • Aprenda a ler e salvar arquivos em diferentes formatos
      • Realize a compressão dos arquivos
      • Aprenda sobre as diferentes opções que há no PySpark no momento da leitura e escrita de arquivos
      • Faça uma análise comparativa entre os arquivos estudados
  2. 2 Data Science e Machine Learning

    Nesta fase da formação, vamos mergulhar em outras ferramentas do Spark, focando no seu uso dentro do Databricks. Vamos aprender a usar a API da Pandas no Spark para manipulação de dados, uma alternativa poderosa para o Pandas, mas com um desempenho superior em grandes conjuntos de dados.

    Em seguida, faremos o curso Databricks: criando um sistema de recomendação. Aqui, aprenderemos a usar a biblioteca MLlib, uma biblioteca de machine learning escalável que fornece vários algoritmos e utilitários (incluindo métodos de regressão, classificação, clustering e filtragem colaborativa), bem como ferramentas para construir pipelines de machine learning.

    Com esses dois cursos, você estará bem equipado para usar o Databricks para ciência de dados, desde a análise exploratória até a criação de modelos preditivos.

    • Curso Databricks: análise de dados

      08h
      • Aprenda a integrar o poder do Spark com a facilidade do Pandas para manipulação de dados em larga escala
      • Compreenda as diferenças entre Pandas e Spark e qual a melhor opção para diferentes cenários
      • Domine a manipulação de dados com Pandas em larga escala com o Spark
      • Crie visualizações poderosas com a Plotly em conjunto com a API de Pandas do Spark
      • Aprenda a otimizar o desempenho do processamento de dados com o Spark DataFrame e a API de Pandas do Spark
    • Curso Databricks: criando um sistema de recomendação

      10h
      • Entenda os motivos para utilizar o Databricks em um projeto de Machine Learning
      • Saiba utilizar o Spark no ambiente Databricks
      • Entenda como fazer uma análise exploratória e tratamentos de dados com a Pandas-API do Spark
      • Calcule a distância entre dados utilizando seus componentes
      • Desenvolva o agrupamento de dados utilizando o algoritmo Kmeans
      • Crie um recomendador de músicas
      • Realize a integração com o biblioteca Spotpy com o recomendador
  3. 3 Orquestrando pipelines de dados

    Nesta etapa, vamos explorar a orquestração dos notebooks no Databricks utilizando o Apache Airflow e o Azure Data Factory.

    Aprenderemos como agendar a execução dos notebooks no ambiente do Azure Databricks, utilizando ferramentas poderosas como PySpark, Airflow, Databricks e requisições de API. Além disso, utilizaremos o Data Factory e o Databricks com Scala para ler e manipular os dados de imóveis nas camadas bronze e silver de um Data Lake que vamos criar no Azure.

    Ao completar essa etapa, você estará equipado com as habilidades necessárias para automatizar tarefas no Databricks utilizando o Airflow e o Data Factory, impulsionando a eficiência e a produtividade em suas operações de análise de dados.

    • Artigo Scala para engenharia de dados: primeiros passos

    • Curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem

      10h
      • Entenda como construir um pipeline de Engenharia de Dados
      • Crie e estruture um Data Lake utilizando o Azure Data Lake Storage Gen 2
      • Configure o Databricks com o serviço de Cloud da Azure
      • Desenvolva notebooks no Databricks utilizando a linguagem Scala
      • Construa pipelines utilizando o Azure Data Factory
      • Integre todo seu projeto de Engenharia de Dados com o GitHub
      • Defina gatilhos de execução e coloque seu pipeline em produção
    • Curso Databricks: construindo pipelines de dados com Airflow e Azure Databricks

      10h
      • Saiba como acessar os recursos do Azure Databricks
      • Aprenda a extrair dados de uma API
      • Entenda como controlar os gastos utilizando a Azure
      • Realize a escrita do arquivo em formatos como Parquet e CSV
      • Aprenda a tranformar os dados extraídos da API
      • Saiba como criar um bot no Slack
      • Realize a orquestração de todo o Pipeline de dados usando o Airflow

Escola

Data Science

Além dessa, a categoria Data Science conta com cursos de Ciência de dados, BI, SQL e Banco de Dados, Excel, Machine Learning, NoSQL, Estatística,e mais...

Conheça a Escola

Comece a estudar agora na maior escola de tecnologia do país

Conheça os Planos para Empresas