BigQuery: o que é, para que serve e como utilizar

BigQuery: o que é, para que serve e como utilizar
Andrieli Gonçalves, Larissa Dubiella
Andrieli Gonçalves, Larissa Dubiella

Compartilhe

Introdução

Reflita comigo: como lidar com o crescimento cada vez mais expressivo da quantidade de dados e não perder de vista a importância de tomar decisões baseadas em evidências?

Exemplo: à medida que uma empresa cresce, pode ser interessante coletar informações em tempo real, como interações de usuários em seu aplicativo ou transações complexas.

E aí entra uma solução incrível: o BigQuery, uma ferramenta de armazenamento em nuvem oferecida pela Google que nos ajuda a armazenar esses dados e a acessá-los de um modo dinâmico e eficaz.

Neste artigo, te contamos tudo sobre a ferramenta BigQuery: suas vantagens, benefícios e o quanto isso pode impactar sua carreira e empresa. Vamos lá?

Banner da Escola de Data Science: Matricula-se na escola de Data Science. Junte-se a uma comunidade de mais de 500 mil estudantes. Na Alura você tem acesso a todos os cursos em uma única assinatura; tem novos lançamentos a cada semana; desafios práticos. Clique e saiba mais!

O que é e por que utilizar?

O BigQuery, Data Warehouse da Google, é uma ferramenta poderosa para lidar com grandes volumes de dados — também conhecidos como Big Data —, chegando a operar na escala de petabytes.

Oferecido para assinantes do Google Cloud, a plataforma tem a capacidade de realizar queries com SQL e tem como uma de suas principais vantagens a separação entre armazenamento e computação.

Essa separação é aprimorada ainda mais pela natureza serverless (sem servidor) da plataforma. Ou seja: não precisamos nos preocupar em administrar fisicamente a infraestrutura, pois o gerenciamento dos servidores é totalmente responsabilidade do provedor do serviço — por meio da internet, nos conectamos ao sistema em nuvem da Google, o qual engloba centros de hardware espalhados ao redor do mundo, e podemos nos concentrar no desenvolvimento do projeto. Nesse sentido, os recursos são escaláveis, pois se alteram automaticamente conforme a demanda, e a entrega é garantida.

Esse poder computacional proporciona bom desempenho e alta velocidade, além de dispensar o trabalho constante de otimização de queries feito por DBAs (pessoas que são administradoras de banco de dados).

Outro fator que otimiza a performance é como os dados são arquivados. Diferente dos Sistemas Gerenciadores de Banco de Dados (SGBDs) tradicionais, os dados não ficam armazenados linearmente e em tabelas que se relacionam entre si, mas sim de forma colunar, como se pode observar no exemplo abaixo:

Figura comparando dois tipos de armazenamento, linear e colunar. Na parte superior da imagem, tem-se o título "Organização linear" e uma tabela com cinco colunas chamadas "ID", "NOME", "ESCOLA", "ESPECIALIDADE" e "INTERAÇÕES". Essa tabela é composta por três linhas: na primeira, os dados são "001", "Ana", "Dados", "Python" e "1894"; na segunda, os dados são "002", "João", "Design", "Illustrator" e "520"; na terceira linha, os dados são "003", "Luiza", "Programação", "Java" e "860". Na parte inferior da imagem, tem-se o título "Organização colunar" e a representação de quatro retângulos, que estão divididos em duas partes, ambas compartilhando a mesma informação de "ID". Cada conjunto de partes de retângulos corresponde a uma coluna da tabela linear. O primeiro par de retângulos é rotulado como "ID" e "NOME", exibindo os dados "001 Ana", "002 João" e "003 Luiza". O segundo par de retângulos é separado em "ID" e "ESCOLA", apresentando as informações "001 Dados", "002 Design" e "003 Programação". O terceiro par, dividido em "ID" e "ESPECIALIDADE", mostra os dados "001 Python", "002 Illustrator" e "003 Java". Por fim, o quarto par de retângulos, identificado como "ID" e "INTERAÇÕES", exibe os registros "001 1894", "002 520" e "003 860".

A partir desse segundo formato, cada coluna de uma tabela é armazenada em um arquivo separado. Isso significa que, quando fizermos uma consulta, o BigQuery precisará ler apenas os arquivos das colunas que estamos usando, e não toda a tabela — contribuindo para a diminuição do tempo gasto com o processamento. O armazenamento colunar também possibilita a compressão do volume de registros: caso uma coluna com nomes tenha o nome “Maria” se repetindo 15 vezes, por exemplo, essa informação será guardada como “15x ‘Maria’” apenas uma vez.

Além disso, o BigQuery também oferece Machine Learning integrada e ferramentas de IA generativa para auxiliar na escrita do código. É possível conhecer todas as possibilidades na página de apresentação da ferramenta.

O BigQuery ainda é uma excelente oportunidade para estudos, pois contém diversos conjuntos de dados públicos voltados à realização de consultas. Além de ajudar a se familiarizar com a plataforma, isso também contribui para a exploração de cenários de múltiplas áreas, como Economia, Geografia, Saúde e Educação.

Em resumo, ao utilizar o BigQuery é possível armazenar e consultar os dados de sua empresa com velocidade e eficácia, sem se preocupar com gerenciamento de servidores.

Como utilizar?

Para ter acesso ao BigQuery, é necessário ser cliente Google Cloud. Atualmente, a Google oferece um período de teste de 90 dias e 300 dólares para serem gastos nesse período, porém, mesmo após o fim do teste, os primeiros 10GB armazenados e 1TB consultados são gratuitos, todo mês, o que atende as necessidades de estudantes ou empresas menores com tranquilidade. Você pode conferir a tabela de valores que explica detalhadamente como as cobranças são feitas.

Com a conta criada, é possível subir seus próprios dados ou acessar os conjuntos públicos diretamente pelo console do Google Cloud. Também é possível que esse acesso seja feito por meio de APIs REST ou diretamente na linha de comando.

Vale enfatizar que, por meio do BigQuery, é possível carregar dados de diferentes formatos, como CSV, JSON, Parquet e Google Sheets. Essa versatilidade proporciona uma abordagem mais ampla e adaptável em operações e análises.

Para consultar os dados, a linguagem utilizada é o SQL Padrão. A cada consulta, você pode visualizar a tabela com o retorno da seleção, uma pré-visualização de um gráfico e também os dados em formato JSON. Além disso, o console do BigQuery oferece informações significativas sobre o desempenho das consultas realizadas e histórico bem detalhado. É também possível salvar os resultados obtidos no formato mais adequado ao seu contexto.

Captura de tela do console do BigQuery. Acima, está uma consulta SQL que seleciona os campos de gênero e duração de viagem em um banco de dados público sobre aluguéis de bicicletas na cidade de Nova Iorque. Há um filtro para desconsiderar as linhas em que o gênero é desconhecido, e um limite de saída para 25 linhas. Na parte de baixo da imagem, estão os resultados da consulta. Nessa parte, há opção de visualizar informações do Job, Resultados, Gráfico, JSON, Detalhes da execução e Gráfico de execução. A opção “Gráfico” está selecionada, e um gráfico de barras mostra que as viagens do gênero masculino são mais longas do que as viagens feitas pelo gênero feminino.

Exemplos de uso

Devido às suas características, o BigQuery é aplicável em uma variedade de contextos, tais como:

  • Análises geoespaciais (ou geográficas): o BigQuery oferece suporte especializado a dados geográficos. Isso permite, por exemplo, coletar detalhes de locomoção e localização de veículos e pessoas, proporcionando às empresas informações estratégicas sobre rotas frequentes e locais mais visitados;
  • Setor de vendas: com sua capacidade de comportar e processar grandes volumes de dados, o BigQuery oportuniza empresas de analisarem padrões de compra, comportamentos do público-alvo e eficácia das campanhas de marketing;
  • Área da saúde: nesse contexto, o BigQuery pode ser aplicado para analisar registros médicos, extrair padrões de informações clínicas, otimizar a gestão de inventários de medicamentos, bem como facilitar pesquisas médicas;
  • Inteligência de Negócios: em conjunto com outras ferramentas da Google, como o Looker Studio, por exemplo, o BigQuery pode ser extremamente útil para a aplicação dos conceitos de Business Intelligence, que focam em oferecer informações concisas para a tomada de decisões baseadas em dados.

Conclusão

Dessa forma, conhecemos características importantes que fazem do BigQuery uma ferramenta notável, principalmente para empresas e para o mercado de trabalho: o suporte a grandes volumes de dados, o elevado desempenho, a análise em tempo real, a facilidade de integração e o modelo de pagamento flexível, por exemplo.

Caso queira aprofundar seus estudos nos conteúdos abordados neste artigo, aqui na Alura temos um time de especialistas que vai te ajudar a alavancar sua carreira e capacitar você a tomar decisões cada vez mais estratégicas e baseadas em evidências. Confira abaixo os nossos materiais:

Andrieli Gonçalves
Andrieli Gonçalves

Andrieli é uma estudante de Ensino Médio Técnico em Informática com um carinho por tecnologia, ciência e educação. Adora passar o tempo estudando, lendo e programando, além de gostar de Dados e Biologia. Como parte do time de monitoria da Escola Semente, se alegra ao ensinar e aprender de maneira contínua.

Larissa Dubiella
Larissa Dubiella

Lari é curiosa e preza pelo aprendizado tranquilo e prazeroso. Gosta de dados, de ler e de cozinhar. Aqui na Alura é monitora na Escola Semente e ajuda a responder às questões do fórum.

Veja outros artigos sobre Data Science