Olá! Meu nome é Henrique Frizo, sou instrutor na Alura. Trabalho na área de dados há mais de 10 anos, sou especialista em Power BI, Excel e outras ferramentas, certificado pela Microsoft, e também atuei com Databricks, não apenas ministrando treinamentos, mas também em consultorias que utilizam essa plataforma.
Audiodescrição: Sou um homem de pele clara, com cabelo e barba escuros. Visto uma camiseta preta lisa e, ao fundo, há uma parede branca com luzes rosa e azul refletidas.
Este curso é voltado para quem nunca teve contato com Databricks e dará o primeiro passo na plataforma. Nós vamos criar a primeira conta, construir os primeiros notebooks (cadernos) e escrever os primeiros códigos. Se você não conhece Databricks e deseja aprender mais sobre a ferramenta por meio de uma linguagem simples e direta ao ponto, este curso é indicado.
Recomenda-se ter, pelo menos, conhecimento básico de SQL.
Abordaremos poucos tópicos de Python neste treinamento. Nós vamos nos concentrar em SQL, por ser uma linguagem mais simples de entender e interpretar. Se você não tem nenhum conhecimento de SQL, vamos ler os códigos juntos e explicá-los ao longo de todo o curso.
Neste curso, aprenderemos a criar uma conta gratuita no Databricks, com a qual você poderá realizar todo o treinamento conosco e, depois, seguir estudando por conta própria. Vamos mostrar como criar notebooks (cadernos), explicar o que são esses notebooks (cadernos) e criar códigos SQL tanto dentro dos notebooks (cadernos) quanto no editor de SQL do Databricks.
Também vamos ensinar como criar um workspace (espaço de trabalho), como manipulá-lo e organizá-lo e, principalmente, como extrair insights (percepções) relevantes utilizando inteligência artificial no Databricks.
Este curso segue o padrão da Alura. A partir de agora, você já tem acesso ao nosso fórum e ao nosso Discord, onde encontrará pessoas que, assim como você, estão em processo de aprendizagem. Podemos nos ajudar mutuamente e construir um ecossistema ainda melhor.
Para começarmos bem, desligue o celular, feche as redes sociais, pegue um café, coloque os fones de ouvido e concentre-se. Nossa jornada a partir de agora será incrível.
Databricks: o que é essa ferramenta e por que movimentou tanto o mercado?
Atualmente, a empresa Databricks é uma das mais valiosas do mundo. Antes de mais nada, para entendermos melhor como isso funciona, precisamos compreender o que é, de fato, essa ferramenta.
Se esta é a primeira vez que temos contato com Databricks, consideremos dois cenários: um antes do Databricks e outro depois do Databricks.
Em um ecossistema de dados de uma organização de grande porte, no qual atuam diversas pessoas que lideram e compõem a equipe de dados, encontramos profissionais que trabalham em torno de um Data Warehouse (armazém de dados), essencialmente um repositório muito grande de dados. Nesse contexto, profissionais de BI (inteligência de negócios) cuidam desses dados, trabalham esses dados, executam funções, constroem gráficos e indicadores, e utilizam essas ferramentas como parte do processo, como apoio para a tomada de decisões.
Também temos o conceito de Data Lake (lago de dados), que é o ponto inicial onde a organização recebe seus dados provenientes de diversas fontes. Via de regra, o Data Lake recebe dados a partir dos sistemas da organização, mas também pode receber de aplicativos, de formulários e, em algumas situações, até de planilhas.
Além disso, há um ecossistema no qual cientistas de dados atuam utilizando modelos de IA e modelos de Machine Learning (aprendizado de máquina) para desenvolver inteligências artificiais destinadas a prever, entre aspas, “o futuro” da organização.
Basicamente, esse é o ecossistema que ainda encontramos em algumas organizações. Antes do Databricks, esse era o cenário predominante: equipes isoladas, dados específicos para determinados setores e muitos profissionais especializados em etapas específicas. Para dar continuidade e finalizar um projeto, era necessário interagir com diversas outras pessoas profissionais ao longo do fluxo de trabalho.
Após a chegada do Databricks ao mercado, surgiu o conceito de Lakehouse (arquitetura que une armazém de dados e lago de dados), que é, essencialmente, a união de Data Warehouse (armazém de dados) com Data Lake (lago de dados). Como isso funciona? O Databricks criou um ecossistema no qual profissionais de dados podem trabalhar em um único lugar. Assim, dentro do Databricks, teremos pessoas engenheiras de dados, analistas de BI, cientistas de dados, pessoas desenvolvedoras, pessoas engenheiras de IA e muitas outras funções atuando no mesmo ambiente, pois a plataforma reúne as ferramentas necessárias para essas profissões.
Teremos, por exemplo, pessoas engenheiras de dados com foco em SQL e SQL avançado; analistas de BI que utilizam mais Python no dia a dia, com bibliotecas específicas para criar análises; e diversos outros perfis trabalhando dentro do mesmo ecossistema. O Databricks nos fornece uma ferramenta unificada para colaborarmos em um único local.
A melhor parte, e discutiremos mais adiante sobre clusters (agrupamentos de computação), é que não precisamos mais montar uma arquitetura extremamente complexa para que a interação entre os dados ocorra. O próprio Databricks já configura essa interação e a arquitetura para nós.
Quem usa Databricks hoje? Veremos a página oficial mais adiante, mas já podemos destacar grandes empresas no Brasil, como iFood, Itaú, Magazine, Nubank. No mundo, temos Shell, HSBC, Adobe, entre outras que aparecerão na página oficial.
Atualmente, o Databricks atua sobre quatro pilares:
Dentro do Databricks, é possível ir muito além de simples consultas em SQL e de simples notebooks (blocos de notas interativos) em Python; podemos realizar tarefas mais complexas, e a plataforma está preparada para isso.
A partir de agora, vamos falar sobre o cenário do nosso treinamento. Trabalharemos com uma empresa chamada Tecnova, Tecnova Brasil. É uma empresa de tecnologia de porte médio, com cerca de 800 colaboradores em operação. Mariana Costa, que será nossa interlocutora durante todo o curso, é gerente de People Analytics (análise de pessoas). Não diremos apenas Recursos Humanos, porque People Analytics vai muito além do RH tradicional. Mariana foi contratada há três meses para liderar a área de dados de Recursos Humanos, que antes era 100% manual, realizada em Excel. A diretoria de RH está exigindo insights estratégicos sobre rotatividade, salários e desempenho, e ela precisa de nós: seremos as pessoas analistas que chegarão para construir essa base dentro do Databricks.
Imaginemos esse cenário: acabamos de ser contratados por uma empresa; já atuamos como analistas de dados; queremos trabalhar com Databricks; e fomos contratados por uma organização que vai implementar o Databricks, sendo nós parte das pessoas pioneiras nesse processo. É um cenário bastante interessante e será o que desenvolveremos ao longo de todo o treinamento.
Na Tecnova, Mariana escolheu o Databricks por três motivos práticos:
Esse é o nosso cenário atual. Vamos criar nossa conta, conhecer a página oficial do Databricks e, sobretudo, explorar a plataforma como um todo.
Vamos começar criando nossa conta no Databricks. Para isso, abrimos o Google e pesquisamos por Databricks Free Edition (edição gratuita). Selecionamos essa opção e clicamos no primeiro link, Databricks Free Edition (edição gratuita).
Databricks é um software pago. Vamos aceitar as permissões da página. O site já está em português. No entanto, a própria Databricks desenvolveu uma ferramenta de estudo, a Databricks Free Edition (edição gratuita), que podemos utilizar. Ela possui várias limitações, principalmente quanto à quantidade de dados utilizada e à quantidade de consultas geradas. Há limites de uso no mesmo dia; pode acontecer de, durante o curso, essa capacidade se esgotar, mas ela se renova. Em geral, não é necessário comprar uma licença do Databricks, a menos que queiramos aprofundar nossos conhecimentos e nos tornarmos pessoas usuárias avançadas da ferramenta. Para todo o nosso treinamento, podemos utilizar a Free Edition (edição gratuita). Haverá algumas limitações, principalmente em relação aos clusters (grupos de processamento), tema sobre o qual falaremos quando chegarmos a essa etapa, mas não é motivo de preocupação.
Ao rolar a página, vemos as empresas mencionadas anteriormente. Algumas foram apresentadas no slide (apresentação), outras não, e há muitas empresas grandes que já utilizam o Databricks. Há também uma visão geral da plataforma, mostrando o que podemos fazer com banco de dados, IA e BI (inteligência de negócios). Podemos explorar isso com mais profundidade conforme nossa curiosidade, mas não iremos nos alongar agora.
No menu lateral esquerdo, onde está “Explorar o produto”, ou no menu superior direito, “Experimentar o Databricks”, podemos clicar em qualquer uma dessas opções; o resultado é o mesmo. Vamos avançar.
A página apresenta: “Comece a usar o Databricks”, com acesso instantâneo à plataforma. Vamos criar a conta e fazer o acesso com nossa conta do Google. É possível começar gratuitamente, sem necessidade de cartão de crédito. Clicamos em “Continuar com o Google” e escolhemos uma das contas. Vamos escolher uma conta utilizada no treinamento de 8M e continuar.
Em seguida, a plataforma informa que, para trabalho, há a opção de começar com uma avaliação gratuita. Para uso pessoal, temos a Free Edition (edição gratuita), mencionada anteriormente. Ela é gratuita para sempre, permite aprender e criar alguns conjuntos de dados e relatórios, e oferece os recursos principais com limites de uso pessoal. Como mencionamos, vamos seguir por essa opção, pois já é possível realizar muitas atividades mesmo com essa licença.
Nós vamos clicar em "Obter a edição gratuita" e aguardar o processamento. Em seguida, alteramos o nome no cadastro para "Henrique Frizo". Eu sou do Brasil.
Continuamos e aguardamos novamente. O sistema exibirá uma pesquisa com a pergunta: "O que você está fazendo dentro do Databricks?". É importante responder para ajudar a equipe do Databricks a conhecer melhor o perfil das pessoas que utilizam esse tipo de conta. Caso não queiramos responder, podemos clicar em "Omitir". Nós preferimos contribuir.
Selecionamos las opções: "Estamos avaliando o que o Databricks pode fazer", "Queremos aprender sobre ETL (Extração, Transformação e Carga) e pipelines (fluxos de processamento)", "Queremos construir painéis" e "Queremos falar sobre armazenamento de dados". Clicamos em "Continuar".
O ambiente será configurado, etapa extremamente importante que pode levar alguns segundos. Após o carregamento, já estaremos dentro do Databricks. Vamos apresentar a ferramenta.
No menu lateral esquerdo, destacamos:
Por se tratar de uma conta de aprendizado, eventualmente, no canto inferior direito, aparecerão vídeos do próprio Databricks ensinando conceitos relevantes, além da seção "Comece a aprender".
Ponto importante: no canto superior direito, há um ícone de lâmpada. Ao clicarmos nesse ícone, teremos acesso ao assistente de IA do Databricks. Em geral, ele apresenta informações mais gerais, mas também pode ser utilizado diretamente dentro de nossos códigos.
Como primeira interação, vamos perguntar: "Explique o que são clusters (agrupamentos) no Databricks". Pressionamos "Enter" e aguardamos. O assistente se comporta como uma IA de chat (bate-papo), semelhante ao ChatGPT, ao Claude e a outras ferramentas disponíveis no mercado.
A resposta indica que clusters (agrupamentos) no Databricks são conjuntos de recursos computacionais (máquinas virtuais) que executam nosso código — sejam notebooks (blocos de anotações), jobs (tarefas agendadas) ou aplicações — e fornecem diversos recursos associados. Assim, caso surja alguma dúvida sobre o Databricks durante o uso, podemos recorrer ao assistente de IA, que consome a cota diária de uso, mas está disponível para utilização.
O curso Databricks: lakehouse, notebooks e consultas com IA generativa possui 101 minutos de vídeos, em um total de 56 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
O Plano Plus evoluiu: agora com Luri para impulsionar sua carreira com os melhores cursos e acesso à maior comunidade tech.
2 anos de Alura
Matricule-se no plano PLUS 24 e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Programação, Data Science, Front-end, DevOps, Mobile, Inovação & Gestão, UX & Design, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
Acesso à inteligência artificial da Alura.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Luri Vision chegou no Plano Pro: a IA da Alura que enxerga suas dúvidas, acelera seu aprendizado e conta também com o Alura Língua que prepara você para competir no mercado internacional.
2 anos de Alura
Todos os benefícios do PLUS 24 e mais vantagens exclusivas:
Chat, busca, exercícios abertos, revisão de aula, geração de legenda para certificado.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Para quem quer atingir seus objetivos mais rápido: Luri Vision ilimitado, vagas de emprego exclusivas e mentorias para acelerar cada etapa da jornada.
2 anos de Alura
Todos os benefícios do PRO 24 e mais vantagens exclusivas:
Catálogo de tecnologia para quem é da área de Marketing
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais de forma ilimitada.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.