Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Databricks: conhecendo a ferramenta

Databricks: conhecendo a ferramenta

Iniciando com o Databricks - Apresentação

Olá! Meu nome é Rodrigo Dias e irei te acompanhar neste curso sobre a plataforma DataBricks para aqueles que desejam se aprofundar um pouco mais em Engenharia de Dados e ferramentas Big Data.

Rodrigo Dias é um homem branco de olhos verdes, cabelos castanhos, barba e bigode curtos e grisalhos. Está sentado e veste uma camiseta preta de tecido liso. Ao fundo, há um armário na cor branca, uma estreita estante com livros e uma cortina na cor verde.

Durante nossa jornada, aprenderemos a nos cadastrar na plataforma e ter uma visão geral de como trabalhar com ela. Como nosso foco é a plataforma de DataBricks, não desenvolveremos um projeto específico, mas trabalharemos com um conjunto de exemplos para ilustrar possíveis situações de trabalho e como lidar com elas através da plataforma.

Ao final do curso, teremos um desafio com as características semelhantes à de um projeto real, onde poderemos exercitar os conhecimentos aprendidos e desenvolver as habilidades como pessoa engenheira de dados.

Para melhor aproveitar este conteúdo, é interessante que você tenha conhecimentos básicos sobre SQL, Python e Spark.

No vídeo a seguir, já iniciaremos nossa prática realizando o cadastro na plataforma. Até já!

Iniciando com o Databricks - Criando conta no Databricks

Para iniciar nosso curso, precisamos acessar a plataforma do DataBricks. É o que faremos agora!

No navegador, acesse https://www.databricks.com/try-databricks, que corresponde à página de cadastro na versão "Try", de 14 dias. Trata-se de uma versão na qual conseguimos acessar todos os recursos da plataforma durante 14 dias para testá-la. Embora não seja exatamente o nosso objetivo, precisamos criar nossa conta por aqui também.

No lado direito da página, há um formulário com as informações que precisam ser preenchidas, como nome, último nome, empresa, e-mail da empresa ou corporativo - que precisa ser válido, tendo em vista que receberemos um e-mail de confirmação - etc. Após preenchê-las, basta clicar no botão "Get Started For Free", que deve estar logo abaixo.

Após clicá-lo, somos direcionados para uma outra janela onde nos são dadas as seguintes opções de provedor de nuvem: AWS - Amazon Web Services, Microsoft Azure e Google Cloud Platform, então é necessário ter uma conta em um deles. Aqui, não abordaremos esta etapa, mas ela seria necessária se fôssemos, de fato, nos cadastrar na versão "Try". Isso porque o DataBricks monta a estrutura necessária para o projeto funcionar diretamente nos recursos disponibilizados pelo seu provedor de nuvem.

Todos esses provedores também possuem essa versão de teste, mas exigem que seja incluído um cartão de crédito no cadastro. Portanto, não faremos isso neste curso, pois usaremos a versão Community Edition do DataBricks, que é uma versão gratuita da plataforma, com funcionalidades um pouco mais restritas, que nos garante acesso à um cluster de 15GB, um gerenciador básico de cluster e um ambiente para trabalharmos com notebooks - tudo o que precisamos para conhecer a ferramenta e estudar as formas de trabalhar com dados. Os recursos citados serão hospedados no AWS sem necessidade de cadastro e, claro, de cartão de crédito.

Ao final desta janela de provedores, há um link escrito "Get started with Community Edition", então clicaremos nele, que deve nos redirecionar à um puzzle simples. Basta resolvê-lo que seremos direcionados à outra janela solicitando que verifiquemos nosso e-mail.

Nele, deve constar uma mensagem e um link de nome "this link" que clicamos para verificar nosso e-mail. Seremos redirecionados à uma página para resetar a senha (password) - que nem chegamos a criar, então basta digitar a senha de sua preferência nos dois campos indicados e clicar em "Reset password". Por fim, chegaremos à janela na qual trabalharemos: a janela inicial (workspace) da plataforma do DataBricks.

Na lateral esquerda, há uma coluna escura que se expande ao passarmos o mouse exibindo algumas opções. No final desta barra lateral, há a opção "Menu options". Clicando nela, temos mais 3 opções "Auto", "Expand" e "Collapse". Optaremos pela opção "Expand" para que esta barra permaneça expandida.

Nesta versão Community, trabalhamos com duas performances que aparecem na faixa de seleção "Data Science e Engineering" abaixo da logo. Clicando nela, temos acesso às duas opções: "Data Science e Engineering", previamente selecionada, e "Machine Learning". Ao clicarmos em "Machine Learning", note que o workspace muda, assim como as opções da barra lateral esquerda.

Neste curso, usaremos "Data Science e Engineering", então voltaremos a selecioná-la. Note que neste workspace há opções com as quais trabalharemos, como notebook, autoML, importação de dados etc.

A seguir, vamos explorar os menus e suas funcionalidades, além das configurações que precisamos para que o curso funcione corretamente.

Utilizando o Databricks - Databricks UI

Nota: Houve atualizações na interface da ferramenta DataBricks. Anteriormente, a edição Community incluía seções distintas para "Data Science and Engineering" e "Machine Learning". No entanto, agora, apresenta somente a área de "Machine Learning". A atualização não impedirá de você prosseguir com a aula normalmente.

Anteriormente, aprendemos a nos cadastrar na versão Community do DataBricks. Agora, passaremos pelas opções da ferramenta entendendo a funcionalidade de cada uma.

Antes, vamos nos ater à uma situação que talvez aconteça com você. O e-mail do instrutor era "aula.databricks@gmail.com", mas na mensagem de confirmação foi retornada a inscrição com o e-mail "auladatabricks@gmail.com" sem o ponto (.). Então é preciso estar atento ao e-mail informado como endereço de inscrição, pois o próprio DataBricks pode alterá-lo. Para isso, na mensagem de confirmação que você receberá, deve conter o trecho "Your sign-in email:" seguido do endereço de e-mail que você deve usar para acessar a plataforma.

No navegador, acessaremos o endereço https://community.cloud.databricks.com/login.html e faremos o login, que deve nos direcionar ao workspace que vimos na aula anterior. Como já vimos, temos duas opções de personas e focaremos em "Data Science e Engineering", então a manteremos selecionada.

Vamos explorar a barra lateral! Abaixo da seleção da persona, temos o botão "Create". Clicando nele, um pequeno menu se expande com as opções "Notebook", "Table" e "Cluster". Em seguida, o botão "Workspace" nos leva, também, a um pequeno menu no qual ficarão salvos nossos arquivos e notebooks; em "Recents" constarão os arquivos acessados recentementes; "Search" nos permite fazer buscas no ambiente de trabalho e em "Data" ficarão nossas tabelas e dados.

No botão "Compute" teremos como gerenciar nossos clusters e, note que, ao invés de expandir um pequeno menu, ele nos mostra uma janela diferente. A opção "Workflows" é para trabalharmos com orquestração, o que não é o objetivo deste curso. Em seguida, temos o botão "Help" com algumas opções de ajuda, entre elas "Documentation", que nos redireciona à documentação do DataBricks, e "Databricks Status", onde vemos o status dos serviços do DataBricks.

Mais abaixo, em "Settings", teremos 3 opções:

  1. "User Settings" - nos mostra uma nova janela com uma aba de opções para redefinir senha, fazer integrações com o Git (algo que só podemos realizar com a versão premium), configurações da aparência do notebook, notificações de e-mail e opções de linguagem (a tradução da ferramenta para o Português não é tão boa, então é interessante mantermos em Inglês);
  2. "Admin Console" - nos mostra uma janela com 3 abas: 1) com os usuários que estão acessando o projeto; 2) onde podemos criar scripts de inicialização, e 3) configurações gerais (com a qual trabalharemos brevemente adiante);
  3. "Delete Account" - para deletar conta.

O penúltimo botão é o usuário, onde podemos fazer o logout para sair da ferramenta e, por fim, "Menu options" que vimos anteriormente e serve para definirmos a maneira como a barra lateral é mostrada, sendo:

Para voltarmos ao workspace inicial, basta clicarmos no logo "databricks" que fica no topo da barra lateral.

Sobre o curso Databricks: conhecendo a ferramenta

O curso Databricks: conhecendo a ferramenta possui 150 minutos de vídeos, em um total de 55 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Plus

De
R$ 1.800
por
12X
R$109
à vista R$1.308
  • Acesso a TODOS os cursos por 1 ano

    Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Certificado

    A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.

  • Mentorias com especialistas

    No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.

  • Comunidade exclusiva

    Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.

  • Acesso ao conteúdo das Imersões

    Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.

  • App Android e iOS para estudar onde quiser

    Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.

Matricule-se

Pro

De
R$ 2.400
por
12X
R$149
à vista R$1.788
  • Acesso a TODOS os cursos por 1 ano

    Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Certificado

    A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.

  • Mentorias com especialistas

    No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.

  • Comunidade exclusiva

    Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.

  • Acesso ao conteúdo das Imersões

    Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.

  • App Android e iOS para estudar onde quiser

    Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.

  • Luri, a inteligência artificial da Alura

    Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.

  • Alura Língua - Inglês e Espanhol

    Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.

Matricule-se

Ultra

12X
R$209
à vista R$2.508
  • Acesso a TODOS os cursos por 1 ano

    Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Certificado

    A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.

  • Mentorias com especialistas

    No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.

  • Comunidade exclusiva

    Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.

  • Acesso ao conteúdo das Imersões

    Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.

  • App Android e iOS para estudar onde quiser

    Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.

  • Luri, com mensagens ILIMITADAS

    Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.

  • Luri Vision, a IA que enxerga suas dúvidas

    Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.

  • Alura Língua - Inglês e Espanhol

    Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.

  • 6 Ebooks da Casa do Código

    Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.

Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas