55h

Para conclusão

6
Cursos
2
Artigos

Conheça a formação de Databricks

A formação de Databricks busca preparar estudantes para trabalhar com Ciência de Dados e Engenharia de Dados, utilizando recursos do Apache Spark e linguagens como Python e SQL.

Funciona como um guia de aprendizado para auxiliar pessoas interessadas em entrar no mercado de trabalho e também como mecanismo de consulta para profissionais experientes.

O QUE É DATABRICKS?

O Databricks é uma plataforma de computação em nuvem criada para cuidar da análise exploratória, criar modelos de machine learning e processar grandes volumes de dados de uma forma mais simples que as outras ferramentas do mercado. Essa plataforma foi desenvolvida em 2013 pelos mesmos criadores do Apache Spark.

O QUE VAMOS APRENDER?

Nesta formação, vamos conhecer a plataforma Databricks entendendo e aplicando de forma prática alguns conceitos como: análise exploratória, processamento de dados e machine learning.

Você vai aprender a manipular dados utilizando SQL, Python e Pandas. Além disso, vai trabalhar com diferentes formatos de arquivos, como: JSON, CSV, TXT, AVRO, Parquet e ORC. E também vai conhecer a biblioteca MLlib do Spark Core.

Por fim, vamos focar nossos estudos na orquestração de pipelines, integrando o Databricks com outras ferramentas de cloud para auxiliar nesse processo.

QUAIS SÃO OS PRÉ-REQUISITOS PARA FAZER ESSA FORMAÇÃO?

Para aproveitar melhor esse conteúdo, é importante que você já saiba programar em linguagem Python, tenha conhecimento em Spark e saiba conceitos básicos de SQL.

Por que estudar esta formação?

  • Guia de aprendizado

    Conteúdos pensados para facilitar seu estudo

  • Do básico ao avançado

    Formação completa para o mercado

  • Você dentro do mercado

    Do zero ao sonhado emprego em sua área de interesse

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Com quem você vai aprender?

  • Allan Segovia Spadini

    Allan trabalha como instrutor de Ciência de dados na Alura desde 2019. Também é um dos autores do livro Séries temporais com Prophet pela Casa do Código.

  • Allan Segovia Spadini

    Allan trabalha como instrutor de Ciência de dados na Alura desde 2019. Também é um dos autores do livro Séries temporais com Prophet pela Casa do Código.

  • Nara Miranda Guimarães

  • Nara Miranda Guimarães

  • Rodrigo Fernando Dias

    Rodrigo é estatístico e especialista em Big Data com forte interesse em geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e tech lead da escola de dados da Alura.

  • Rodrigo Fernando Dias

    Rodrigo é estatístico e especialista em Big Data com forte interesse em geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e tech lead da escola de dados da Alura.

  • Sarah David Müzel

  • Sarah David Müzel

  • Bruno Raphaell

    Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.

  • Bruno Raphaell

    Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.

  • Millena Gená Pereira

    Millena Gená é estudante de Ciência da Computação. Atualmente, é Instrutora de Dados aqui na Alura atuando principalmente na área de Engenharia de dados. Ela está sempre procurando aprender algo novo sobre tecnologia e é apaixonada por novas aventuras. Programar e ajudar as pessoas são seus hobbies favoritos! ^^

  • Millena Gená Pereira

    Millena Gená é estudante de Ciência da Computação. Atualmente, é Instrutora de Dados aqui na Alura atuando principalmente na área de Engenharia de dados. Ela está sempre procurando aprender algo novo sobre tecnologia e é apaixonada por novas aventuras. Programar e ajudar as pessoas são seus hobbies favoritos! ^^

  • Igor Nascimento Alves

    Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.

  • Igor Nascimento Alves

    Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.

Passo a passo
  1. 1 Manipulando dados

    Neste passo inicial, preparamos um conteúdo para ajudar você a conhecer melhor o Databricks, como navegar na plataforma e manipular dados utilizando Python e SQL.

    Na primeira etapa dessa jornada, você vai aprender os principais recursos da plataforma Databricks, entender como configurar e criar um cluster, usar comandos SQL utilizando Hive e SparkSQL e também entender as vantagens e desvantagens de utilizar os diferentes tipos de arquivos. No final dessa etapa, você será capaz de manipular dados utilizando os principais recursos do Databricks.

    • Artigo Databricks: o que é e para que serve? | Alura

    • Curso Databricks: conhecendo a ferramenta

      08h
      • Aprenda a utilizar a plataforma Databricks
      • Entenda alguns conceitos e ferramentas de Big Data
      • Aprenda a configurar e criar um cluster
      • Saiba como trabalhar com notebooks na plataforma do Databricks
      • Aprenda a usar comandos SQL no Databricks utilizando Hive e SparkSQL
      • Conheça o Hive e como utilizá-lo na plataforma
    • Curso Databricks: trabalhando com diversos formatos e tipos de arquivos

      08h
      • Compreenda os conceitos dos formatos de arquivo JSON, CSV, TXT, AVRO, Parquet e ORC
      • Entenda as vantagens e desvantagens de utilizar os diferentes tipos de arquivos
      • Aprenda a ler e salvar arquivos em diferentes formatos
      • Realize a compressão dos arquivos
      • Aprenda sobre as diferentes opções que há no PySpark no momento da leitura e escrita de arquivos
      • Faça uma análise comparativa entre os arquivos estudados
  2. 2 Data Science e Machine Learning

    Nesta fase da formação, vamos mergulhar em outras ferramentas do Spark, focando no seu uso dentro do Databricks. Vamos aprender a usar a API da Pandas no Spark para manipulação de dados, uma alternativa poderosa para o Pandas, mas com um desempenho superior em grandes conjuntos de dados.

    Em seguida, faremos o curso Databricks: criando um sistema de recomendação. Aqui, aprenderemos a usar a biblioteca MLlib, uma biblioteca de machine learning escalável que fornece vários algoritmos e utilitários (incluindo métodos de regressão, classificação, clustering e filtragem colaborativa), bem como ferramentas para construir pipelines de machine learning.

    Com esses dois cursos, você estará bem equipado para usar o Databricks para ciência de dados, desde a análise exploratória até a criação de modelos preditivos.

    • Curso Databricks: análise de dados

      08h
      • Aprenda a integrar o poder do Spark com a facilidade do Pandas para manipulação de dados em larga escala
      • Compreenda as diferenças entre Pandas e Spark e qual a melhor opção para diferentes cenários
      • Domine a manipulação de dados com Pandas em larga escala com o Spark
      • Crie visualizações poderosas com a Plotly em conjunto com a API de Pandas do Spark
      • Aprenda a otimizar o desempenho do processamento de dados com o Spark DataFrame e a API de Pandas do Spark
    • Curso Databricks: criando um sistema de recomendação

      10h
      • Entenda os motivos para utilizar o Databricks em um projeto de Machine Learning
      • Saiba utilizar o Spark no ambiente Databricks
      • Entenda como fazer uma análise exploratória e tratamentos de dados com a Pandas-API do Spark
      • Calcule a distância entre dados utilizando seus componentes
      • Desenvolva o agrupamento de dados utilizando o algoritmo Kmeans
      • Crie um recomendador de músicas
      • Realize a integração com o biblioteca Spotpy com o recomendador
  3. 3 Orquestrando pipelines de dados

    Nesta etapa, vamos explorar a orquestração dos notebooks no Databricks utilizando o Apache Airflow e o Azure Data Factory.

    Aprenderemos como agendar a execução dos notebooks no ambiente do Azure Databricks, utilizando ferramentas poderosas como PySpark, Airflow, Databricks e requisições de API. Além disso, utilizaremos o Data Factory e o Databricks com Scala para ler e manipular os dados de imóveis nas camadas bronze e silver de um Data Lake que vamos criar no Azure.

    Ao completar essa etapa, você estará equipado com as habilidades necessárias para automatizar tarefas no Databricks utilizando o Airflow e o Data Factory, impulsionando a eficiência e a produtividade em suas operações de análise de dados.

    • Artigo Scala para engenharia de dados: primeiros passos

    • Curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem

      10h
      • Entenda como construir um pipeline de Engenharia de Dados
      • Crie e estruture um Data Lake utilizando o Azure Data Lake Storage Gen 2
      • Configure o Databricks com o serviço de Cloud da Azure
      • Desenvolva notebooks no Databricks utilizando a linguagem Scala
      • Construa pipelines utilizando o Azure Data Factory
      • Integre todo seu projeto de Engenharia de Dados com o GitHub
      • Defina gatilhos de execução e coloque seu pipeline em produção
    • Curso Databricks: construindo pipelines de dados com Airflow e Azure Databricks

      10h
      • Saiba como acessar os recursos do Azure Databricks
      • Aprenda a extrair dados de uma API
      • Entenda como controlar os gastos utilizando a Azure
      • Realize a escrita do arquivo em formatos como Parquet e CSV
      • Aprenda a tranformar os dados extraídos da API
      • Saiba como criar um bot no Slack
      • Realize a orquestração de todo o Pipeline de dados usando o Airflow

Escola

Data Science

Além dessa, a categoria Data Science conta com cursos de Ciência de dados, BI, SQL e Banco de Dados, Excel, Machine Learning, NoSQL, Estatística,e mais...

Conheça a Escola

Comece hoje mesmo os cursos de Engenharia de dados com Databricks. Matricule-se agora!

Plus

De
R$ 1.800
12X
R$109
à vista R$1.308
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

Matricule-se

Pro

De
R$ 2.400
12X
R$149
à vista R$1.788
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Luri, a inteligência artificial da Alura

    Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com Luri até 100 mensagens por semana.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas