Olá! Bem-vinde ao curso de qualidade e engenharia de dados.
Neste curso, adotaremos um enfoque diferente sobre a qualidade dos dados. Nós trabalhamos em um banco chamado Banco Pantanal, que está investindo fortemente em transformação digital. Dentro dessa transformação, a principal estratégia relacionada a dados é utilizá-los para tomar melhores decisões.
Para isso, vamos construir — ou a equipe de dados foi orientada a construir — um Data LakeHouse (arquitetura unificada de dados).
Durante os testes das capacidades do nosso Data LakeHouse (arquitetura unificada de dados) para entregar dados com qualidade, identificamos alguns problemas.
A partir disso, precisamos entender como, dentro do sistema e das limitações que temos, podemos criar diversas iniciativas para garantir a qualidade dos dados de ponta a ponta: definir responsabilidades, estabelecer como vamos assegurar a qualidade desde a saída na fonte até a chegada ao Data LakeHouse (arquitetura unificada de dados) e determinar a melhor forma de fazer isso. É exatamente isso que vamos fazer neste curso.
Vamos iniciar o nosso curso sobre qualidade e engenharia de dados. Trataremos das influências e responsabilidades das áreas envolvidas com a qualidade de dados: a própria área de Qualidade de Dados, quando existente, a área de Governança de Dados e a Engenharia.
Para começar, precisamos entender onde vamos trabalhar, qual é a empresa que vamos apoiar e como vamos tratar a questão da qualidade de dados dessa empresa. Vamos ao nosso caso de negócio.
Trabalharemos em um banco predominantemente físico e regionalizado que definiu fortalecer a plataforma digital como estratégia de expansão no Brasil. Como veremos adiante, trata-se de um banco bastante regional do Centro-Oeste, que reconheceu a dificuldade de competir diretamente com os grandes bancos brasileiros. Entretanto, ao adotar uma opção digital, pode conquistar mercados com custo menor. Para isso, será necessário passar por uma transformação digital, e é justamente esse o foco do nosso trabalho aqui.
Sobre o Banco Sertanejo, já se passaram dois anos desde o início dessa transformação digital, quando foi definida a migração para o ambiente digital. O banco opera mais de 60 sistemas legados e transacionais, a maioria deles on-premises (no local), com servidores que hospedam bancos de dados responsáveis por processar, por exemplo, o pagamento de salários de clientes e transferências via PIX, entre outros. Está em curso também a transformação desses sistemas legados on-premises (no local) para alguns sistemas em nuvem. Este é o contexto geral de como a empresa opera.
O ponto mais importante para nós é que o Banco Sertanejo definiu o uso de dados como parte fundamental da sua estratégia. Em busca de maior eficiência estratégica e visando habilitar iniciativas de IA, o investimento em transformação digital foi direcionado de forma significativa para a área de dados. A ideia é que nós possamos usar os dados já existentes na instituição para tomar melhores decisões, isto é, decisões orientadas por dados.
Há, portanto, uma concentração de esforços e investimentos, envolvendo diversas áreas, para garantir que isso aconteça.
Para que isso seja, de fato, implementado, adotamos uma estratégia dividida em quatro pontos.
Vamos iniciar pelo canto superior direito. Nesse canto, temos o Data Lakehouse (arquitetura unificada de lago e armazém de dados), que é uma infraestrutura unificada de armazenamento de dados que também pode ser utilizada para análises. Todos os dados da organização que vinham do sistema on-premises (no local) devem ser concentrados em uma única plataforma de dados, o Data Lakehouse. Essa plataforma realizará tanto o armazenamento dos dados quanto a facilitação das análises.
Para que o Data Lakehouse seja implementado, de fato, foi criada uma diretoria de dados, que estabelecerá a liderança e a governança para todas as iniciativas de dados. De outro lado, temos os objetivos que gostaríamos de alcançar: análises avançadas, insights (percepções) profundos, realização de previsões com algoritmos de Data Science (ciência de dados), utilização de implementações de IA e garantia de decisões orientadas por dados para melhorar a tomada de decisão em todos os níveis da organização — operacional, tático e, principalmente, estratégico.
Quanto ao nosso escopo de atuação, trabalharemos dentro dessa diretoria de dados, que foi dividida em cinco grandes áreas, isto é, cinco equipes:
Esse é o espaço onde trabalhamos dentro da empresa. Especificamente, vamos atuar ora como e com as pessoas de governança de dados, como e com as pessoas de engenharia e como e com as pessoas de qualidade de dados.
Tudo isso é uma introdução para compreendermos melhor onde vamos trabalhar dentro dessa organização. Na próxima aula, vamos fazer um deep dive (imersão aprofundada) no que é um Data Lakehouse e falar também sobre a arquitetura dessa solução.
Na última aula, discutimos em qual empresa vamos trabalhar e descobrimos que é o Banco Pantanal, um banco regional focado no Centro-Oeste brasileiro, que optou por uma plataforma digital mais ampla como estratégia de expansão para outras regiões do Brasil. Para isso, foi realizada uma transformação digital abrangente, e um dos focos dessa transformação é garantir que possamos tomar melhores decisões, neste caso, decisões baseadas em dados. Para atingir esse objetivo, foi criada uma diretoria de dados e, para viabilizá-lo, nós estamos implementando um Data Lakehouse (arquitetura de lago de dados e armazém de dados).
Como o Data Lakehouse (arquitetura de lago de dados e armazém de dados) é um conceito específico, hoje vamos entender detalhadamente o que ele é, como isso afeta a arquitetura e como vamos trabalhar com os dados dentro da organização. Basicamente, um Data Lakehouse (arquitetura de lago de dados e armazém de dados) é uma das principais arquiteturas atuais para armazenamento de dados em um ambiente analítico.
Vale conceituar brevemente o que é o ambiente analítico. Nas empresas, normalmente temos dois ambientes: o ambiente transacional, onde de fato ocorrem as transações, e o ambiente analítico, que copia os dados de forma separada, fornecendo mais liberdade e segurança para trabalharmos com esses dados.
Vamos a um exemplo. No nosso banco, todos os dados de PIX dos clientes precisam estar armazenados em bases muito precisas e confiáveis. Se déssemos acesso direto a essas bases e alguém realizasse muitas consultas, ou consultas muito complexas, poderíamos sobrecarregar a memória desse banco de dados e provocar lentidão na operação do PIX — algo que definitivamente não queremos. Uma das formas que as organizações utilizam hoje para não sobrecarregar o sistema transacional é criar uma cópia dele orientada à parte de analytics (análise de dados), isto é, ao uso analítico e organizacional dos dados.
Por que isso é tão importante? Primeiro, bases de dados transacionais não estão otimizadas para leituras; elas são otimizadas para operações de escrita, para registrar novas transações. Já os sistemas orientados ao ambiente analítico são mais eficientes em leituras e em disponibilizar dados para consumo. Além disso, ao isolar os ambientes, garantimos que nenhuma pessoa interessada apenas em análise consiga alterar qualquer dado em produção — o que seria especialmente crítico no caso de um banco. Essa é uma estratégia adotada por muitas empresas e que facilita, ou instrumentaliza, a criação de um ambiente informacional robusto.
O Data Lakehouse (arquitetura de lago de dados e armazém de dados) contará com uma camada de armazenamento de dados que, especificamente neste caso, utilizará uma arquitetura de medalhão: três camadas com distintos níveis de tratamento de dados. Isso nos permitirá realizar análises avançadas, utilizar machine learning (aprendizado de máquina) e outras ferramentas de data science (ciência de dados), como processamento de linguagem natural, além de outras formas de trabalhar com esses dados que serão importantes para a tomada de decisões no futuro.
Além disso, o Data Lakehouse (arquitetura de lago de dados e armazém de dados) facilitará a acessibilidade aos dados, já que eles estarão segregados do ambiente transacional, o que torna mais simples garantir o acesso. Lembrando que, especialmente em bancos, vimos que este banco operava com mais de 60 sistemas distintos; suponhamos que seis deles sejam voltados para vendas. Se quisermos autorizar uma pessoa do nosso time de análise de dados a visualizar essas informações, precisaríamos conceder acesso em seis sistemas diferentes. A gestão desse permissionamento se torna bastante complexa e passa a ser centralizada quando migramos para o Data Lakehouse (arquitetura de lago de dados e armazém de dados).
Essa arquitetura também é desenhada para crescer conforme as necessidades da empresa, pois conseguimos centralizar mais as ações e incorporar outros times, se necessário, para continuar evoluindo o trabalho.
Em resumo do que abordamos até aqui, isso é um Data Lakehouse (arquitetura de lago de dados e armazém de dados). Para sermos mais específicos, nós vamos detalhar a arquitetura de medalhão, um dos enfoques mais comuns ao trabalharmos com Data Lakehouses (arquiteturas de lago de dados e armazéns de dados) modernas. Qual é a ideia, então? Aqui nós vamos retomar os conceitos de ELT e ETL. ELT significa Extract, Load, Transform (Extrair, Carregar e Transformar) e ETL significa Extract, Transform, Load (Extrair, Transformar e Carregar).
Definimos o seguinte procedimento: vamos tomar a camada de dados brutos, que normalmente provêm de sistemas que são sistemas legacy (legado), e trazê-los para o Data Lakehouse (Data Lakehouse) na camada Bronze, exatamente como estão no sistema de origem. Supondo que exista um sistema de vendas, por exemplo, de seguros, vamos trazer os dados exatamente como estão. Assim, realizamos a carga dos dados para a camada Bronze, o que significa que a camada Bronze é fiel aos dados do sistema transacional; os dados são espelhados de forma um-para-um.
Em seguida, teremos a camada Silver, dedicada à harmonização desses dados e à garantia de um nível de qualidade. Isso significa que, por exemplo, se houver uma definição muito clara do que é cliente, sabemos que todo cliente deve ter um identificador único. Podemos garantir que esse identificador único esteja correto na camada Silver, considerando que a camada Bronze apenas copia os dados da fonte. Outra ação possível é criar níveis de qualidade de dados nessa camada Silver, tema que abordaremos com mais profundidade nas próximas aulas.
Por fim, temos a camada Gold, a camada de uso e disponibilidade dos dados. Os dados da camada Silver estarão lá, prontos para que outras partes da organização os consumam. No entanto, se, em determinados casos, o time de marketing (marketing) estiver interessado nos dados, ir diretamente à camada Silver pode não fazer tanto sentido. Como diferentes áreas — por exemplo, marketing (marketing) e compliance (conformidade) — terão visões distintas sobre os dados de vendas, a ideia é que nós, quando necessário para realizar uma análise específica, levemos os dados para a camada Gold, aplicando as modificações que o negócio exigir. A partir da camada Gold, colocaremos esses dados à disposição. Nesse momento, os dados estão prontos para consumo. É assim que funciona a arquitetura de medalhão.
Agora que já sabemos por onde vamos navegar, qual é a arquitetura que utilizaremos nesta empresa e qual é o background (contexto) da organização de maneira mais geral, recebemos uma missão como parte da diretoria de dados. Temos aproximadamente dois meses para comprovar que é possível tomar melhores decisões baseadas em dados e, para isso, precisávamos executar algumas ações. Estamos chegando ao final desse prazo.
O primeiro passo foi coletar os dados de vendas desses sistemas legacy (legado) — ao todo 60 sistemas. Precisamos criar integrações para todos eles, a fim de trazer esses dados para dentro do Data Lakehouse (arquitetura de lago de dados e armazém de dados) na camada Bronze.
Com os dados na camada Bronze, o segundo passo é a criação dos pipelines (fluxos de processamento), isto é, as conexões entre as camadas que vão transformar um pouco ou segregar esses dados conforme nossas necessidades. A criação dos pipelines (fluxos de processamento) foi o passo dois.
Na sequência, temos a implementação desses pipelines (fluxos de processamento). Por quê? Nesta empresa especificamente, a criação dos pipelines (fluxos de processamento) é responsabilidade do time de engenharia de dados, enquanto a implementação é responsabilidade do time de plataforma. Podemos, então, discutir o que é a plataforma de dados: trata-se da gestão de todos esses pipelines (fluxos de processamento) em conjunto e da definição das regras para a criação de um bom pipeline (fluxo de processamento) dentro da organização. O time responsável pela plataforma é quem entende esse ecossistema, nos provê toda a infraestrutura necessária para garantir que a arquitetura exista e, além disso, uma vez que os pipelines (fluxos de processamento) estejam em funcionamento, garante que um não interfira no outro, que tudo esteja em execução, que haja memória suficiente para todos os pipelines (fluxos de processamento) serem executados, que haja espaço de armazenamento para que os dados fiquem devidamente guardados e assim por diante.
Agora que o time de plataforma já realizou a implementação dos pipelines (fluxos de processamento), vamos solicitar ao time de Analytics que crie um dashboard (painel). É exatamente nessa etapa que nos encontramos nesta semana. O time de Analytics está finalizando a criação do dashboard (painel) e, em alguns dias, faremos a apresentação para a diretoria.
Para isso, reunimos as lideranças, profissionais mais experientes de todas as áreas, como nós, e analisamos o processo como um todo. Observamos alguns problemas de qualidade nesses dados. Chegamos a convidar algumas pessoas do time de vendas para entender se esse dashboard (painel) realmente fazia sentido, já que elas conhecem as vendas da nossa organização, e começaram a apontar alguns pontos que não estavam corretos. Constatamos, portanto, problemas de qualidade de dados.
Esses problemas de qualidade acabaram tornando o dashboard (painel) pouco funcional para o que a diretoria precisava. Decidimos, então, pausar um pouco e, antes de apresentar os dados nesse estado, buscar entender como podemos garantir a qualidade desses dados. Falaremos mais sobre essa trajetória no próximo vídeo.
O curso Governança de dados: Engenharia e Qualidade de dados possui 162 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Governança de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
O Plano Plus evoluiu: agora com Luri para impulsionar sua carreira com os melhores cursos e acesso à maior comunidade tech.
2 anos de Alura
Matricule-se no plano PLUS 24 e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Programação, Data Science, Front-end, DevOps, Mobile, Inovação & Gestão, UX & Design, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
Acesso à inteligência artificial da Alura.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Luri Vision chegou no Plano Pro: a IA da Alura que enxerga suas dúvidas, acelera seu aprendizado e conta também com o Alura Língua que prepara você para competir no mercado internacional.
2 anos de Alura
Todos os benefícios do PLUS 24 e mais vantagens exclusivas:
Chat, busca, exercícios abertos, revisão de aula, geração de legenda para certificado.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Para quem quer atingir seus objetivos mais rápido: Luri Vision ilimitado, vagas de emprego exclusivas e mentorias para acelerar cada etapa da jornada.
2 anos de Alura
Todos os benefícios do PRO 24 e mais vantagens exclusivas:
Catálogo de tecnologia para quem é da área de Marketing
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais de forma ilimitada.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.