Data Lake vs Data Warehouse

Quando o assunto é Big Data, normalmente nomes como Data Warehouse e Data Lake são mencionados. Como ambos são locais de armazenamento de dados, geralmente, costumam ser confundidos.

Por isso, ao longo desse artigo, vamos conhecê-los para entender quais são suas diferenças. Antes de começar esse assunto, porém, precisamos compreender um pouco sobre estrutura de dados para facilitar o entendimento do tema.
Tipos de dados
Estruturados
A primeira categoria são dados que possuem um padrão específico. Eles existem em formatos pré-definidos, como uma tabela com campos fixados. Além disso, dados estruturados são fáceis de analisar e pesquisar quando comparados com dados não-estruturados.
A linguagem SQL é utilizada para a consulta e construção de bases de dados estruturadas, que podem se relacionar com outras bases de dados também estruturadas. Exemplos de campos presentes em dados estruturados são: nomes, endereços, CEP, telefone, etc.
Não estruturados
A segunda categoria são dados não estruturados. Podem ter uma estrutura interna, mas não de uma forma pré-definida. Essa definição fica mais clara quando vemos que exemplos de dados não estruturados apresentam uma variedade maior.
Texto, atividades em redes sociais, e-mails, gravações de câmeras de segurança e músicas, são exemplos típicos de dados não estruturados. A variedade e falta de estrutura pré-definida torna a sua análise mais difícil. Além disso, por serem não estruturados, esses dados são armazenados em bancos de dados não relacionais, chamados de NoSQL.
Leia também: SQL e NoSQL: trabalhando com bancos relacionais e não relacionais
Semi estruturados
Dados semi-estruturados pertencem a uma terceira categoria que está entre as outras duas.
Eles podem ser pensados como um tipo de dado estruturado que não se encaixa na estrutura de uma base de dados relacional, mas que ainda considera sistemas de nomeação de campos, permitindo a separação de diferentes elementos e tornando a pesquisa mais fácil.

Definição de Data Warehouse e Data Lake
Bases de dados são tipicamente estruturadas e organizadas para eventuais consultas, mas não são desenvolvidas para que possamos realizar a análise dos dados que as compõem.
A escolha de um Data Warehouse ou Data Lake pode estar relacionada aos dados que iremos extrair e aos procedimentos que realizaremos na sequência.
Por isso, precisamos entender em detalhes como cada um funciona.
Data Warehouse
Um Data Warehouse é composto por diversas bases de dados - normalmente bases estruturadas, e é utilizado para o business intelligence (BI). Por armazenarem dados processados, economizam espaço de armazenamento com dados que correm o risco de nunca serem usados.
Através do Data Warehouse, conseguimos consumir todas essas bases de dados e criar uma camada otimizada para realizar a análise de dados com ferramentas como o Power BI.
A organização dessas bases de dados (esquema) é feita durante a sua importação. Ele é uma ferramenta essencial para empresas que lidam com grandes volumes de dados, por permitir uma compreensão mais profunda dos padrões e tendências do negócio.
Data Warehouse — Significado
O termo Data Warehouse, em inglês, pode ser traduzido de forma literal para o português como “Armazém de Dados”, que representa bem o conceito dessa estrutura, que armazena informações e reúne dados de várias fontes e os organiza de maneira estruturada.
O que é Data lake
O Data Lake pode ser visto como um repositório centralizado para armazenar dados estruturados e não estruturados.
Ele pode armazenar dados não processados sem que haja a necessidade de nenhum tipo de transformação. Além disso, pode guardar qualquer tipo de formato, como imagens, textos, vídeos, modelos de machine learning e dados coletados em tempo real, implicando diretamente na sua capacidade de armazenamento.
O processamento pode ser feito na exportação e, dessa forma, a organização dos dados é feita na leitura. Por mais que ele seja de rápida leitura, pode armazenar tantos dados variados que acaba gerando um pântano de dados se não forem implementadas técnicas para manter a qualidade e a governança dos dados.
Geralmente são explorados pelos cientistas de dados e analistas de BI.
Confira o episódio de Hipsters Ponto Tube: “O que faz uma Cientista de Dados?”, no qual a cientista Mikaeri Ohana conta para a gente um pouco mais sobre o seu dia a dia enquanto Data Scientist.

Data Lake — Significado
O termo Data Lake, em inglês, pode ser traduzido para o português de forma literal, como “Lago de Dados”, que faz jus ao conceito que abordamos há pouco, do pântano de dados. Por ser uma estrutura mais flexível que o Data Warehouse, o Data Lake pode acomodar uma grande variedade de dados, estruturados e não estruturados, em sua forma original.
Data Warehouse vs Data Lake: Principais diferenças
É importante compreender a diferença entre data lake e data warehouse, pois apesar de ambos serem locais de armazenamento de dados, é comum haver confusão. Tanto data warehouses quanto data lakes podem armazenar dados, mas existem diferenças em relação à escala e número de fontes de dados. Uma organização pode precisar de um data lake, data warehouse e bases de dados para diferentes usos.
Em resumo:
O Data Warehouse é um local centralizado para dados estruturados e possui características conhecidas com antecedência para a sua construção e processo de extração, transformação e carregamento de dados.
O Data Lake tem uma proporção muito maior onde dados de várias fontes podem se encontrar. Todos os tipos de dados são permitidos, estruturados ou não.
Confira também: O que são Data Lakes? | #AluraMais — YouTube

Gostou do assunto?
Na Alura você aprender mais sobre esse tema: em nosso artigo “Engenharia de Dados: o que é, o que faz e um Guia completo”, e pode se aprofundar no nossos cursos de Engenharia de dados:
Além disso, temos cursos para se aprofundar em dados estruturados com o MySQL e não estruturados NoSQL.