Google Colab: o que é, tutorial de como usar e criar códigos

Google Colab: o que é, tutorial de como usar e criar códigos
Thiago G Santos
Thiago G Santos

Compartilhe

Introdução

Nesse artigo vamos entender o que é o Google Colab, como ele funciona, como abrir arquivos externos e como escrever códigos e textos em markdown. Primeiro uma introdução como uma definição a cerca do tema e depois vamos ver como usá-lo colocando a "mão na massa".

Banner da Escola de Data Science: Matricula-se na escola de Data Science. Junte-se a uma comunidade de mais de 500 mil estudantes. Na Alura você tem acesso a todos os cursos em uma única assinatura; tem novos lançamentos a cada semana; desafios práticos. Clique e saiba mais!

O que é o Google Colaboratory?

O Google Colaboratory, carinhosamente chamado de Colab, é um serviço de nuvem gratuito hospedado pelo próprio Google para incentivar a pesquisa de Aprendizado de Máquina e Inteligência Artificial.

É uma ferramenta que permite que você misture código fonte (geralmente em python) e texto rico (geralmente em markdown) com imagens e o resultado desse código, uma técnica conhecida como: notebook (“caderno”, em português).

Tudo isso num ambiente colaborativo, que você pode compartilhar com seus colegas, permitindo que outros rodem seu código e até modifiquem criando suas próprias versões. Os notebooks foram fortemente inspirados nos notebooks do Jupyter e utilizam essa ferramenta por trás dos panos.

Ela trabalha em especial com a linguagem Python, mas com alguns ajustes é possível rodar código em R, Julia, Swift e outras linguagens de programação.

Semelhanças com Jupyter Notebook

Similar ao famoso jupyter notebook, o Colab é uma lista de células que podem conter textos explicativos ou códigos executáveis e suas respectivas saídas.

Tutorial: Como começar a usar o Colab

1. Acessando pela primeira vez

O primeira passo que precisamos fazer para usar o google Colab é acessar o seguinte endereço:

Logo seremos direcionados para um notebook chamado Welcome to Colaboratory:

Página inicial do Google Colaboratory: Welcome to Colaboratory.

2. Documentação e principais tópicos para começar

Esse notebook explica algumas características do Colab e mostra como dar os primeiros passos — recomendo a leitura. Dentre todas aquelas listadas, podemos resumir nas seguintes 3 principais características:

  • Pelo fato dele rodar em uma máquina do google, não precisamos realizar qualquer configuração;

  • O google disponibiliza gratuitamente acesso a GPU’s;

  • É simples de compartilhar, igual a qualquer arquivo contido no drive.

3. Google Colab Notebook: como criar um?

"Ok, já li e entendi o que é o Colaboratory, mas quero criar meu próprio notebook!"

Para fazer isso, precisamos clicar em >File, na parte superior esquerda, logo em seguida em >New Notebook. Veja na figura abaixo:

Para criar um notebook no Google Colaboratory, clique em file, na parte superior esquerda, logo em seguida em New Notebook.

Login numa conta Google

Feito esse processo, caso não esteja logado em uma conta google, o seguinte pop-up aparece:

O pop-up para logar em uma conta Google se abre caso você não esteja logado.

Clique em OK para ser direcionado à tela de login do gmail. Caso não tenha uma conta gmail, clique em Create account e siga os passos para cadastro:

Tela de login para entrar ou criar uma conta Google.

Feito, agora você tem acesso ao seu google colab! Vamos fazer alguns testes nesse notebook!

4. Seu primeiro código no Google Colab

Agora que está com o seu primeiro notebook aberto, quero explicar sobre os três pontos em destaques da seguinte figura:

Crie seu primeiro código no Google Colab.

01: Célula

Vamos começar pelo recorte 01, aqui temos o que chamamos de célula. Ela é o local onde você escreve códigos ou texto. Vamos começar com a célula de código, que você pode ir testando no seu notebook. Então para começar digite no local correspondente ao 01:

print(“Hello World”)

Para executar esse código temos algumas opções: você pode clicar no sinal de play que fica no início da célula ou pode usar o atalho SHIFT+ENTER — existem diversos outros atalhos para executar uma célula, você encontra detalhes no documento de Visão geral dos recursos do Colaboratory.

Um segundo exercício é aquele clássico, escreva "Hello World" e, repare que ao executar, é impresso logo abaixo.

Agora vamos tentar outro código, que tal realizarmos uma operação e armazenar esse valor em uma variável? Use o seu notebook para executar o seguinte código:

soma_dois_numeros = 1232 + 2314

Ao executar, diferente da célula anterior, nada é impresso. Isso ocorre porque a atribuição de variáveis não tem retorno em python. Outro ponto que você deve ter observado é que ao rodar a primeira célula, o tempo para executar foi mais longo, isso porque, ao rodar pela primeira vez, o colab precisa criar uma máquina nos servidores do google, então esse tempo extra é justamente para a criação desta máquina.

02: Adicionando novas células

Até o momento nós criamos apenas células de código, mas conforme falamos, os notebooks nos permitem mesclar essas células de código e textos em formato markdown. Na figura anterior temos o recorte 02, esses “botões” servem para adicionar novas células em seu notebook.

  • +Code: adiciona células de código;
  • +Text: adiciona as células nas quais você pode digitar texto com as configurações markdown.

Essa característica nos permite desenvolver explicações e relatórios nos próprios notebooks. Experimente aí no seu notebook, crie alguns textos em formato markdown!

03: A base de dados

Já sabemos como escrever códigos, o que será primordial ao realizar uma análise de dados. Também aprendemos que é possível escrever textos, o que nos ajuda a tecer conclusões e criar relatórios. Entretanto, para que o Colab se torne uma ferramenta funcional falta o principal elemento: a base de dados.

Temos várias formas de obter acesso a uma base de dados, entre elas utilizar alguma biblioteca que lê um arquivo direto de uma URI, por exemplo. Segue uma sugestão sobre como podemos ler o dataset MovieLeans salvo no github da Alura:

import pandas as pd
base_de_dados = pd.read_csv(“https://raw.githubusercontent.com/alura-cursos/formacao-data-science/master/movies.csv”)

Assim, temos o dataset salvo na variável base_de_dados e podemos realizar a exploração dos dados.

A forma que apresentamos é útil quando temos os dados públicos, mas muitas vezes a base de dados está em nosso computador e não podemos deixá-la disponível na internet.

Como podemos fazer para enviar esses dados para o Colab?

No destaque 03, última figura, temos o ícone de uma pasta, clique nela. Veja na imagem abaixo que ao clicar, uma view é aberta, mostrando uma estrutura de diretórios:

Estrutura dos diretórios dentro do Google Colab, onde é possível conectar sua base de dados.

Se você explorar as pastas, vai perceber que é muito similar à estrutura de um sistema operacional Linux.

Na parte superior da view temos algumas opções: se você clicar em input poderá optar por enviar um arquivo da sua máquina para o google. Desse modo, pode acessar a base de dados passando como parâmetro para a função pd.read() o local do arquivo, por exemplo:


base_de_dados = pd.read_csv(“base_de_dados_que_você_subiu.csv”)

A desvantagem desse método é que ao fechar e acessar seu notebook em outro momento, você precisa realizar o input dos dados novamente, processo que pode ser demorado. Então, uma outra boa opção para guardar os dados é salvar em seu Google Drive e acessá-lo direto do notebook, para isso apenas clique em Mount Drive, que aparece na imagem anterior, ou mesmo, use a API do Google Drive, utilizando from google.colab import drive e, por exemplo, drive.mount('/content/drive').

Para saber mais você pode ver o tópico do fórum da Alura sobre como salvar o projeto no Colab e acessar o Mount Drive.

Enfim, você pode facilmente compartilhar seu notebook com o botão 'compartilhar' na barra de ferramentas, ou ainda gravar uma cópia para você de outro colab, na opção 'Arquivo/Salvar.'

Conclusão

Vimos que usar o google colab torna nossa entrada na área de dados simples, afinal de contas não precisamos instalar nada, não precisamos realizar configurações e nem mesmo ter uma máquina poderosa. O google disponibiliza tudo isso pronto e com qualidade, é só acessar um notebook e começar a diversão!

Agora que você conhece as principais funcionalidades dos notebooks e sabe utilizar o colaboratory, que tal criar sua análise no colab e compartilhar com a gente nas redes sociais?

Gostou deste assunto e quer se aprofundar mais em ciência de dados? Veja alguns cursos que a Alura tem nesta área:

Para se manter informado sobre nossas novidades, siga a Alura nas redes sociais. Se quiser conhecer mais e acompanhar diversos assuntos de ciência de dados me siga no Twitter @tgcsantos, sempre estou compartilhando conteúdos da área.

Thiago G Santos
Thiago G Santos

Um quase físico, apaixonado por dados e educação. Atuou durante alguns anos na área de Data Science na maior fabricante de eletrodomésticos do mundo e trabalhou em projetos de Processamento de Linguagem Natural para a Petrobrás. Atualmente dedica-se à aplicação de machine learning na área da educação e na democratização do acesso ao ensino de Data Science no Brasil.

Veja outros artigos sobre Data Science