Data lake: On premises versus Nuvem

Data lake: On premises versus Nuvem
Marcus Almeida
Marcus Almeida

Compartilhe

Com o crescimento exponencial dos dados nas organizações, a necessidade de uma estratégia eficiente de armazenamento e processamento tornou-se fundamental. Nesse contexto, os data lakes emergiram como uma solução promissora, permitindo a coleta, armazenamento e análise de grandes volumes de dados de diversas fontes. Com isso, surge o dilema de escolher entre implementar um data lake on premises, utilizando recursos locais, ou optar por um data lake em nuvem, aproveitando a escalabilidade e flexibilidade oferecidas por provedores de serviços em nuvem. Neste artigo, exploraremos as características, benefícios e desafios de cada abordagem.

E para iniciar, precisamos conhecer quais são os tipos de infraestruturas para construção dos data lakes.

Tipos de infraestrutura para data lakes

Dentre os tipos de infraestrutura, se destacam três tipos principais para construção de data lakes, são eles: on premises, nuvem e nuvem híbrida.

Figura com título “Infraestruturas Data Lake”. Na imagem, três pilares verdes dispostos horizontalmente. No primeiro pilar, a esquerda, o título “ON PREMISES”, no segundo pilar “NUVEM” e o terceiro pilar “NUVEM HÍBRIDA”.

Infraestrutura on premises

O modelo on premises para data lakes envolve a implantação da infraestrutura diretamente na própria organização. Os servidores físicos ou data centers privados são usados para armazenar, processar e analisar os dados. Essa abordagem oferece controle total sobre a infraestrutura, mas pode exigir investimentos significativos em hardware, espaço físico e equipe de suporte dedicada à operação e manutenção.

A infraestrutura on premises oferece controle direto sobre todo o ambiente do data lake. Isso permite personalizar a configuração conforme as necessidades específicas da organização e proporciona uma maior autonomia na tomada de decisão no que diz respeito a segurança e privacidade, especialmente quando se trata de dados sensíveis ou regulamentados. Além disso, em muitos casos, as organizações já possuem recursos de TI internos e expertise para gerenciar a infraestrutura local.

No entanto, esse modelo pode apresentar algumas barreiras para implementação. O custo inicial é geralmente alto, pois requer investimentos significativos em hardware, infraestrutura e manutenção. A escalabilidade também pode ser um desafio, pois a capacidade é limitada pelos recursos físicos disponíveis. A manutenção e atualização contínuas do hardware e software também são responsabilidades da organização, o que pode demandar recursos de TI e tempo consideráveis.

Infraestrutura em nuvem

Figura com os logotipos da AWS, Azure e Google Cloud Plataform.

O modelo em nuvem utiliza provedores de serviços em nuvem, como Amazon Web Services (AWS), Microsoft Azure ou Google Cloud Plataform (GCP), para hospedar o ambiente de armazenamento e processamento de dados. Isso oferece escalabilidade, flexibilidade e facilidade de gerenciamento, pois os recursos são disponibilizados conforme a demanda e o pagamento é baseado no uso.

Um data lake estruturado em nuvem permite que as organizações aproveitem as vantagens da infraestrutura pronta e recursos avançados oferecidos pelos provedores de nuvem. Além disso, a escalabilidade é uma das principais vantagens, pois os recursos podem ser facilmente ajustados conforme a demanda, permitindo acompanhar o crescimento dos dados, oferecendo flexibilidade e permitindo que as organizações experimentem diferentes soluções de armazenamento e processamento de dados sem a necessidade de grandes investimentos iniciais.

Outra vantagem é a facilidade de gerenciamento. Os provedores de nuvem cuidam da infraestrutura, atualizações, manutenção e segurança, permitindo que as equipes de TI foquem em tarefas mais estratégicas. A segurança também é uma preocupação para os provedores de nuvem, que implementam medidas avançadas para proteger os dados dos clientes.

No entanto, também temos algumas dificuldades que podem surgir ao adotar o modelo em nuvem. A dependência de provedores de serviços em nuvem pode ser um risco, devido à possibilidade de interrupção dos serviços e também a dependência de terceiros para garantir a segurança do sistema, fazendo-se necessária uma configuração correta para evitar acesso não autorizado. Além disso, a latência - que é o tempo efetivo que leva para um pacote de dados chegar a outro ponto - pode ser um desafio para aplicações que requerem alta performance e baixa latência. Preocupações com privacidade e conformidade também podem surgir, especialmente quando dados confidenciais são armazenados na nuvem e sujeitos a regulamentações específicas.

Infraestrutura em nuvem híbrida

A abordagem de nuvem híbrida combina a infraestrutura on premises e em nuvem, permitindo que as organizações mantenham parte do data lake localmente para dados sensíveis ou regulamentados, enquanto outros dados são armazenados e processados na nuvem. Essa solução oferece flexibilidade e permite que as organizações aproveitem os benefícios de ambas as abordagens, ajustando o armazenamento e processamento conforme a necessidade. Esse modelo é também uma abordagem condizente às fases de transição para sistemas on premises em migração para nuvem.

A abordagem de nuvem híbrida oferece uma combinação das vantagens do on premises e em nuvem, permitindo às organizações otimizar o uso de recursos e lidar com requisitos diversos de armazenamento e processamento de dados. No entanto, a complexidade é um dos desafios da nuvem híbrida. Integrar e gerenciar dois ambientes distintos requer um planejamento cuidadoso e expertise técnica. As organizações precisam garantir que os dados sejam transferidos e sincronizados adequadamente entre os ambientes para evitar inconsistências e problemas de integridade.

Banner da Escola de Data Science: Matricula-se na escola de Data Science. Junte-se a uma comunidade de mais de 500 mil estudantes. Na Alura você tem acesso a todos os cursos em uma única assinatura; tem novos lançamentos a cada semana; desafios práticos. Clique e saiba mais!

Comparativo entre on premises versus nuvem:

A fim de auxiliar na decisão entre a infraestrutura on premises e em nuvem para um data lake, é útil fazer um comparativo entre os principais aspectos relevantes. A tabela a seguir destaca alguns fatores essenciais para essa escolha:

AspectosOn premisesNuvem
Custo inicialAlto, investimento em hardware e infraestruturaBaixo, pagamento conforme o uso e escalabilidade
EscalabilidadeLimitada, depende de recursos físicos disponíveisAlta, ajuste dinâmico de recursos conforme a demanda
GerenciamentoNecessita de equipe de TI dedicada para manutençãoProvedores de nuvem cuidam de manutenção e atualizações
SegurançaControle direto sobre a segurança e privacidade dos dadosProvedores de nuvem implementam medidas avançadas de segurança
LatênciaBaixa latência, ideal para aplicações que requerem alta performanceLatência pode variar, dependendo da conexão com o provedor
ConformidadeResponsabilidade da organização garantir a conformidadeProvedores de nuvem atendem a diversas normas e regulamentações

Observando esses aspectos, embora o on premises ainda seja relevante para certas organizações com requisitos específicos de segurança e conformidade, o data lake na nuvem ganhou espaço no mercado devido à sua flexibilidade, escalabilidade e recursos avançados oferecidos pelos provedores de nuvem.

Orçamento de infraestrutura

Os custos de manutenção de uma infraestrutura de data lake podem variar significativamente entre on premises e nuvem. No modelo on premises, os custos incluem aquisição de hardware, atualizações, espaço físico, consumo de energia e equipe de TI para gerenciamento contínuo. Já na nuvem, os custos são baseados no uso, incluindo armazenamento, processamento e transferência de dados.

Para ajudar a comparar esses custos, muitos provedores de nuvem oferecem calculadoras de preços que permitem estimar os gastos em diferentes cenários. Além disso, existem ferramentas de orçamento que podem auxiliar na avaliação dos custos operacionais e de infraestrutura necessários para o modelo on premises.

Algumas referências de calculadoras de orçamento para infraestrutura em nuvem são:

  1. AWS Pricing Calculator

A calculadora de preços da Amazon Web Services (AWS) permite estimar os custos de diversos serviços em nuvem, incluindo armazenamento, processamento, transferência de dados e muito mais.

Captura de tela do site “Calculadora de preços da AWS”. Na imagem, o título do site, seguido de um subtítulo “Estime o custo para sua solução de arquitetura.”. No centro da imagem, à direita, há uma opção “Crie uma estimativa”, e um botão para iniciar. E no corpo da página, um tutorial de como é o funcionamento da calculadora.
  1. Azure Pricing Calculator

A Microsoft Azure oferece sua própria calculadora de preços que permite estimar os custos de uso de serviços em sua plataforma de nuvem.

Captura de tela da página inicial da página “Pricing calculator” da Microsoft. Na parte superior, no canto esquerdo, há o título “Pricing calculator”, seguido do subtítulo “Calculate your estimated hourly or monthly costs for using Azure”. E abaixo, o botão “Try Azure for free” e “Create a pay-as-you-go account“. O corpo da página mostra outros produtos da Azure.
  1. Google Cloud Pricing Calculator

O Google Cloud Platform (GCP) também possui uma ferramenta de estimativa de preços para ajudar potenciais pessoas usuárias a entender os custos associados à utilização de seus serviços em nuvem.

Captura de tela do site “Google Cloud Pricing Calculator”. No corpo da página, há um formulário para selecionar o produto de interesse, e também várias características da instância para indicar. No centro direito, há um botão “Estimate”.

Essas calculadoras são úteis para estimar os gastos com a infraestrutura em nuvem, permitindo que as organizações planejem e otimizem seus investimentos de acordo com suas necessidades específicas. Lembre-se de que os custos reais podem variar dependendo do uso real e das configurações escolhidas.

Implantação e migração de tecnologia

A implantação de um data lake pode ser uma tarefa complexa, independentemente do modelo escolhido. No caso do on premises, é necessário planejar a aquisição e a instalação de hardware, a configuração de rede e ambiente, e a implementação de software adequado para armazenamento e processamento dos dados.

Na nuvem, a implantação envolve a configuração de recursos virtuais, a seleção de serviços adequados, a criação de políticas de segurança e o gerenciamento das chaves de acesso.

Seja durante o processo de criação de um data lake em nuvem a partir de um modelo on premises, ou durante a transição de uma estrutura de data lake em nuvem para outra, é crucial realizar uma migração adequada dos dados existentes. Isso garante a integridade e consistência durante o processo de transição.

Conclusão

E aí, curtiu? Aqui na Alura nós temos vários conteúdos voltados a Engenharia de Dados, Cloud, Bancos de Dados e muito mais. Convidamos você a conhecer a Formação Primeiros passos com Engenharia de Dados e também SQL com PostgreSQL, que conduzirão seu mergulho inicial no universo de Engenharia de Dados.

Mergulhe em tecnologia! 🤿🌊


Créditos

Marcus Almeida
Marcus Almeida

Bacharelando em Engenharia Elétrica pelo Instituto Federal do Maranhão. Atuou como parte do Scuba Team da Escola de Dados na Alura, trabalhando com conteúdos voltados a Data Science, Machine Learning, Python e SQL. Adora conversar tecnologia, universo geek, games e também aprender coisas novas.

Veja outros artigos sobre Data Science