Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Databricks: lakehouse, notebooks e consultas com IA generativa

Databricks: lakehouse, notebooks e consultas com IA generativa

O Databricks e o mercado de dados - Apresentação

Apresentando o instrutor e a audiodescrição

Olá! Meu nome é Henrique Frizo, sou instrutor na Alura. Trabalho na área de dados há mais de 10 anos, sou especialista em Power BI, Excel e outras ferramentas, certificado pela Microsoft, e também atuei com Databricks, não apenas ministrando treinamentos, mas também em consultorias que utilizam essa plataforma.

Audiodescrição: Sou um homem de pele clara, com cabelo e barba escuros. Visto uma camiseta preta lisa e, ao fundo, há uma parede branca com luzes rosa e azul refletidas.

Definindo o público-alvo e os pré-requisitos

Este curso é voltado para quem nunca teve contato com Databricks e dará o primeiro passo na plataforma. Nós vamos criar a primeira conta, construir os primeiros notebooks (cadernos) e escrever os primeiros códigos. Se você não conhece Databricks e deseja aprender mais sobre a ferramenta por meio de uma linguagem simples e direta ao ponto, este curso é indicado.

Recomenda-se ter, pelo menos, conhecimento básico de SQL.

Explicando a abordagem e o conteúdo prático

Abordaremos poucos tópicos de Python neste treinamento. Nós vamos nos concentrar em SQL, por ser uma linguagem mais simples de entender e interpretar. Se você não tem nenhum conhecimento de SQL, vamos ler os códigos juntos e explicá-los ao longo de todo o curso.

Neste curso, aprenderemos a criar uma conta gratuita no Databricks, com a qual você poderá realizar todo o treinamento conosco e, depois, seguir estudando por conta própria. Vamos mostrar como criar notebooks (cadernos), explicar o que são esses notebooks (cadernos) e criar códigos SQL tanto dentro dos notebooks (cadernos) quanto no editor de SQL do Databricks.

Também vamos ensinar como criar um workspace (espaço de trabalho), como manipulá-lo e organizá-lo e, principalmente, como extrair insights (percepções) relevantes utilizando inteligência artificial no Databricks.

Promovendo a comunidade e incentivando a concentração

Este curso segue o padrão da Alura. A partir de agora, você já tem acesso ao nosso fórum e ao nosso Discord, onde encontrará pessoas que, assim como você, estão em processo de aprendizagem. Podemos nos ajudar mutuamente e construir um ecossistema ainda melhor.

Para começarmos bem, desligue o celular, feche as redes sociais, pegue um café, coloque os fones de ouvido e concentre-se. Nossa jornada a partir de agora será incrível.

O Databricks e o mercado de dados - O que é Databricks e por que o mercado usa

Contextualizando o databricks e o impacto no mercado

Databricks: o que é essa ferramenta e por que movimentou tanto o mercado?

Atualmente, a empresa Databricks é uma das mais valiosas do mundo. Antes de mais nada, para entendermos melhor como isso funciona, precisamos compreender o que é, de fato, essa ferramenta.

Se esta é a primeira vez que temos contato com Databricks, consideremos dois cenários: um antes do Databricks e outro depois do Databricks.

Descrevendo o ecossistema de dados antes do databricks

Em um ecossistema de dados de uma organização de grande porte, no qual atuam diversas pessoas que lideram e compõem a equipe de dados, encontramos profissionais que trabalham em torno de um Data Warehouse (armazém de dados), essencialmente um repositório muito grande de dados. Nesse contexto, profissionais de BI (inteligência de negócios) cuidam desses dados, trabalham esses dados, executam funções, constroem gráficos e indicadores, e utilizam essas ferramentas como parte do processo, como apoio para a tomada de decisões.

Também temos o conceito de Data Lake (lago de dados), que é o ponto inicial onde a organização recebe seus dados provenientes de diversas fontes. Via de regra, o Data Lake recebe dados a partir dos sistemas da organização, mas também pode receber de aplicativos, de formulários e, em algumas situações, até de planilhas.

Além disso, há um ecossistema no qual cientistas de dados atuam utilizando modelos de IA e modelos de Machine Learning (aprendizado de máquina) para desenvolver inteligências artificiais destinadas a prever, entre aspas, “o futuro” da organização.

Basicamente, esse é o ecossistema que ainda encontramos em algumas organizações. Antes do Databricks, esse era o cenário predominante: equipes isoladas, dados específicos para determinados setores e muitos profissionais especializados em etapas específicas. Para dar continuidade e finalizar um projeto, era necessário interagir com diversas outras pessoas profissionais ao longo do fluxo de trabalho.

Apresentando o lakehouse e a colaboração no databricks

Após a chegada do Databricks ao mercado, surgiu o conceito de Lakehouse (arquitetura que une armazém de dados e lago de dados), que é, essencialmente, a união de Data Warehouse (armazém de dados) com Data Lake (lago de dados). Como isso funciona? O Databricks criou um ecossistema no qual profissionais de dados podem trabalhar em um único lugar. Assim, dentro do Databricks, teremos pessoas engenheiras de dados, analistas de BI, cientistas de dados, pessoas desenvolvedoras, pessoas engenheiras de IA e muitas outras funções atuando no mesmo ambiente, pois a plataforma reúne as ferramentas necessárias para essas profissões.

Teremos, por exemplo, pessoas engenheiras de dados com foco em SQL e SQL avançado; analistas de BI que utilizam mais Python no dia a dia, com bibliotecas específicas para criar análises; e diversos outros perfis trabalhando dentro do mesmo ecossistema. O Databricks nos fornece uma ferramenta unificada para colaborarmos em um único local.

A melhor parte, e discutiremos mais adiante sobre clusters (agrupamentos de computação), é que não precisamos mais montar uma arquitetura extremamente complexa para que a interação entre os dados ocorra. O próprio Databricks já configura essa interação e a arquitetura para nós.

Apresentando a adoção no mercado e os pilares da plataforma

Quem usa Databricks hoje? Veremos a página oficial mais adiante, mas já podemos destacar grandes empresas no Brasil, como iFood, Itaú, Magazine, Nubank. No mundo, temos Shell, HSBC, Adobe, entre outras que aparecerão na página oficial.

Atualmente, o Databricks atua sobre quatro pilares:

Dentro do Databricks, é possível ir muito além de simples consultas em SQL e de simples notebooks (blocos de notas interativos) em Python; podemos realizar tarefas mais complexas, e a plataforma está preparada para isso.

Contextualizando o treinamento e o caso tecnova

A partir de agora, vamos falar sobre o cenário do nosso treinamento. Trabalharemos com uma empresa chamada Tecnova, Tecnova Brasil. É uma empresa de tecnologia de porte médio, com cerca de 800 colaboradores em operação. Mariana Costa, que será nossa interlocutora durante todo o curso, é gerente de People Analytics (análise de pessoas). Não diremos apenas Recursos Humanos, porque People Analytics vai muito além do RH tradicional. Mariana foi contratada há três meses para liderar a área de dados de Recursos Humanos, que antes era 100% manual, realizada em Excel. A diretoria de RH está exigindo insights estratégicos sobre rotatividade, salários e desempenho, e ela precisa de nós: seremos as pessoas analistas que chegarão para construir essa base dentro do Databricks.

Imaginemos esse cenário: acabamos de ser contratados por uma empresa; já atuamos como analistas de dados; queremos trabalhar com Databricks; e fomos contratados por uma organização que vai implementar o Databricks, sendo nós parte das pessoas pioneiras nesse processo. É um cenário bastante interessante e será o que desenvolveremos ao longo de todo o treinamento.

Listando os motivos da escolha e definindo próximos passos

Na Tecnova, Mariana escolheu o Databricks por três motivos práticos:

  1. Podemos trabalhar com SQL, linguagem que toda a equipe conhece e que é amplamente difundida.
  2. O ambiente é colaborativo; é possível colaborar no mesmo notebook (bloco de notas interativo), como mencionado anteriormente.
  3. A arquitetura é muito mais amigável; não precisamos passar horas montando tudo para conseguirmos trabalhar em conjunto. O próprio Databricks oferece isso e conta com uma IA nativa que auxilia a escrever queries (consultas): o famoso Databricks Assistant (assistente do Databricks), com o qual vamos trabalhar bastante. Veremos como é simples utilizar o Databricks por meio desse assistente de IA.

Esse é o nosso cenário atual. Vamos criar nossa conta, conhecer a página oficial do Databricks e, sobretudo, explorar a plataforma como um todo.

O Databricks e o mercado de dados - Visão geral da plataforma

Começando a criar a conta no Databricks

Vamos começar criando nossa conta no Databricks. Para isso, abrimos o Google e pesquisamos por Databricks Free Edition (edição gratuita). Selecionamos essa opção e clicamos no primeiro link, Databricks Free Edition (edição gratuita).

Databricks é um software pago. Vamos aceitar as permissões da página. O site já está em português. No entanto, a própria Databricks desenvolveu uma ferramenta de estudo, a Databricks Free Edition (edição gratuita), que podemos utilizar. Ela possui várias limitações, principalmente quanto à quantidade de dados utilizada e à quantidade de consultas geradas. Há limites de uso no mesmo dia; pode acontecer de, durante o curso, essa capacidade se esgotar, mas ela se renova. Em geral, não é necessário comprar uma licença do Databricks, a menos que queiramos aprofundar nossos conhecimentos e nos tornarmos pessoas usuárias avançadas da ferramenta. Para todo o nosso treinamento, podemos utilizar a Free Edition (edição gratuita). Haverá algumas limitações, principalmente em relação aos clusters (grupos de processamento), tema sobre o qual falaremos quando chegarmos a essa etapa, mas não é motivo de preocupação.

Explorando a página inicial e opções de acesso

Ao rolar a página, vemos as empresas mencionadas anteriormente. Algumas foram apresentadas no slide (apresentação), outras não, e há muitas empresas grandes que já utilizam o Databricks. Há também uma visão geral da plataforma, mostrando o que podemos fazer com banco de dados, IA e BI (inteligência de negócios). Podemos explorar isso com mais profundidade conforme nossa curiosidade, mas não iremos nos alongar agora.

No menu lateral esquerdo, onde está “Explorar o produto”, ou no menu superior direito, “Experimentar o Databricks”, podemos clicar em qualquer uma dessas opções; o resultado é o mesmo. Vamos avançar.

Criando a conta com o Google e escolhendo a Free Edition

A página apresenta: “Comece a usar o Databricks”, com acesso instantâneo à plataforma. Vamos criar a conta e fazer o acesso com nossa conta do Google. É possível começar gratuitamente, sem necessidade de cartão de crédito. Clicamos em “Continuar com o Google” e escolhemos uma das contas. Vamos escolher uma conta utilizada no treinamento de 8M e continuar.

Em seguida, a plataforma informa que, para trabalho, há a opção de começar com uma avaliação gratuita. Para uso pessoal, temos a Free Edition (edição gratuita), mencionada anteriormente. Ela é gratuita para sempre, permite aprender e criar alguns conjuntos de dados e relatórios, e oferece os recursos principais com limites de uso pessoal. Como mencionamos, vamos seguir por essa opção, pois já é possível realizar muitas atividades mesmo com essa licença.

Respondendo à pesquisa de perfil e finalizando cadastro

Nós vamos clicar em "Obter a edição gratuita" e aguardar o processamento. Em seguida, alteramos o nome no cadastro para "Henrique Frizo". Eu sou do Brasil.

Continuamos e aguardamos novamente. O sistema exibirá uma pesquisa com a pergunta: "O que você está fazendo dentro do Databricks?". É importante responder para ajudar a equipe do Databricks a conhecer melhor o perfil das pessoas que utilizam esse tipo de conta. Caso não queiramos responder, podemos clicar em "Omitir". Nós preferimos contribuir.

Selecionamos las opções: "Estamos avaliando o que o Databricks pode fazer", "Queremos aprender sobre ETL (Extração, Transformação e Carga) e pipelines (fluxos de processamento)", "Queremos construir painéis" e "Queremos falar sobre armazenamento de dados". Clicamos em "Continuar".

Apresentando o ambiente do Databricks

O ambiente será configurado, etapa extremamente importante que pode levar alguns segundos. Após o carregamento, já estaremos dentro do Databricks. Vamos apresentar a ferramenta.

No menu lateral esquerdo, destacamos:

Por se tratar de uma conta de aprendizado, eventualmente, no canto inferior direito, aparecerão vídeos do próprio Databricks ensinando conceitos relevantes, além da seção "Comece a aprender".

Utilizando o assistente de IA do Databricks

Ponto importante: no canto superior direito, há um ícone de lâmpada. Ao clicarmos nesse ícone, teremos acesso ao assistente de IA do Databricks. Em geral, ele apresenta informações mais gerais, mas também pode ser utilizado diretamente dentro de nossos códigos.

Como primeira interação, vamos perguntar: "Explique o que são clusters (agrupamentos) no Databricks". Pressionamos "Enter" e aguardamos. O assistente se comporta como uma IA de chat (bate-papo), semelhante ao ChatGPT, ao Claude e a outras ferramentas disponíveis no mercado.

A resposta indica que clusters (agrupamentos) no Databricks são conjuntos de recursos computacionais (máquinas virtuais) que executam nosso código — sejam notebooks (blocos de anotações), jobs (tarefas agendadas) ou aplicações — e fornecem diversos recursos associados. Assim, caso surja alguma dúvida sobre o Databricks durante o uso, podemos recorrer ao assistente de IA, que consome a cota diária de uso, mas está disponível para utilização.

Sobre o curso Databricks: lakehouse, notebooks e consultas com IA generativa

O curso Databricks: lakehouse, notebooks e consultas com IA generativa possui 101 minutos de vídeos, em um total de 56 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas