Olá! Meu nome é Pedro Henrique Campagna Moura da Silva e serei o instrutor deste curso sobre qualidade de metadados.
Audiodescrição: Pedro é um homem branco, de cabelo castanho curto e olhos castanhos. Ele veste uma camisa azul clara e está em um escritório com uma parede branca ao fundo e uma estante com livros à sua direita.
Neste curso, trabalharemos dentro de uma empresa alimentícia para lançar um novo produto no mercado: um cereal voltado para o público infantojuvenil. Nosso foco será entender as relações entre as tabelas e identificar quais tabelas estão sendo utilizadas, principalmente por meio dos metadados. Nosso principal interesse será analisar a qualidade desses metadados.
Para isso, precisaremos converter artefatos, que são objetos JSON contendo várias informações, utilizando a linguagem de programação Python.
Para aproveitar melhor este curso, é importante que tenhamos alguma experiência com metadados. Há um curso na Alura que pode nos ajudar com isso, então não precisamos nos preocupar. Vamos trabalhar com linguagem de programação, um pouco de orientação a objetos em Python, para criar classes que nos ajudarão a transformar esses artefatos em objetos de dados.
Utilizaremos isso para montar uma tabela, analisar os metadados e, por fim, discutir em profundidade como aferimos a qualidade dos metadados. Finalmente, encerraremos o curso tentando entender por que realizamos esse processo e por que ele é tão importante.
Além disso, vamos compreender como os dados se transformam em informações, que se transformam em conhecimento, utilizado de forma a adquirir sabedoria, e como os metadados e sua qualidade são fundamentais nesse processo.
Esperamos que gostem. Vamos começar!
Imaginemos o seguinte cenário: trabalhamos em uma das grandes empresas do setor alimentício do Brasil. Dentro dessa empresa, o time de pesquisa e desenvolvimento identificou um setor do mercado em que ainda não atuávamos: o setor de cereais matinais, aqueles que frequentemente vemos crianças consumindo pela manhã. A ideia, então, foi que toda a nossa empresa se organizasse, incluindo o time de desenvolvimento de produto e os times financeiros, para realizar um grande lançamento desse novo produto, que será um cereal matinal voltado para o público infanto-juvenil.
Baseado nisso, como nossa empresa utiliza muitos dados, seremos responsáveis por administrar os metadados dessa nova iniciativa. Para isso, precisamos conhecer melhor o cenário e entender como trabalhamos com dados dentro da nossa própria empresa.
A primeira coisa que gostaríamos de mostrar, e talvez a mais interessante deste curso, é um diagrama. Este diagrama ilustra a linhagem de dados, desde a camada bronze, passando pela camada silver, chegando à camada gold, e, por fim, uma camada adicional que não faz parte da arquitetura padrão que nossa empresa utiliza para trabalhar com dados. Essa camada extra servirá para o uso de um dashboard que concentrará as principais informações sobre o novo produto.
Vamos tentar entender, com base nos dados, o que temos para trabalhar. Na camada bronze, que é o primeiro nível de trabalho das informações, onde os dados estão na forma mais bruta possível, temos diferentes bases que utilizaremos para agregar informações posteriormente. Vamos focar nessas inicialmente.
Dentro de BZ Vendas, que interpretamos como um banco de dados chamado Bronze Vendas, provavelmente sob responsabilidade do time de vendas, temos uma base chamada Vendas de Produtos Diários. Também dentro de BZ Vendas, temos os Pedidos de Produtos Diários. Assim, já possuímos duas métricas importantes para acompanhar o lançamento deste produto: a quantidade de vendas e a quantidade de pedidos. No entanto, perceba que aqui não há nada específico, são as vendas e os pedidos de toda a empresa.
Do sistema financeiro, temos mais duas bases: a primeira é a de Lucro Diário para o Produto, e a segunda é de Receita Diária para o Produto. Dessa forma, fica mais fácil focar apenas nos dados do novo produto para obter um nível de comparação melhor.
A última tabela na camada bronze nos apresenta um artefato muito diferente de simplesmente tabelas provenientes de vários softwares ou sistemas distintos. O pessoal de Data Science realizou um trabalho junto ao lançamento para fazer uma previsão de vendas diárias. Isso demonstra como temos muita informação para trabalhar e como uma empresa do nosso porte consegue alavancar os dados para identificar oportunidades no mercado para lançar esse tipo de produto.
No lançamento, conseguimos acompanhar as vendas dos produtos, os pedidos, o lucro e a receita que esse novo produto está gerando. Além disso, nosso time de Data Science nos ajudou fazendo uma previsão de vendas. Com essa iniciativa, podemos verificar se estamos acompanhando a previsão, se estamos melhores ou piores que a previsão e se precisamos fazer alguma alteração na estratégia de marketing ou qualquer coisa do tipo. Lembrando que esse não é o foco do nosso curso, pois estamos aqui para trabalhar com os metadados, mas é interessante conhecer mais sobre essa iniciativa.
Após a camada bronze, passamos para a camada silver. Os dados são transformados na camada silver de maneira que fiquem mais corretos. Qualquer tipo de incorreção ou problema nos dados deve ser resolvido na camada bronze, e não devem ser carregados para a camada silver. Vamos trabalhar mais essa ideia de um medalhão, que é essa arquitetura que você está vendo em outro vídeo, não se preocupe.
Na camada silver, teremos o SL Vendas, que é o Silver Vendas, com as vendas versus os pedidos do novo produto. Das bases que estávamos usando para criar essa tabela, que são as de produtos diários, de vendas e pedidos de produtos diários, já fizemos uma seleção daquilo que nos interessava e trouxemos para a camada silver. Das duas tabelas de financeiro, vamos criar outra tabela de financeiro, já em silver, que se chamará Receita e Lucro do Novo Pedido. Na silver de Data Science, teremos uma previsão de vendas em uma base mais curada e pronta para que alguém possa utilizá-la.
Essas informações serão passadas para mais uma camada de qualidade da informação e de orientação de uso, que é a camada gold. Na camada gold, teremos um dataset, na verdade, um database todo para esse nosso novo produto, e dentro dele teremos algumas bases diferentes. A primeira será de métricas de venda, a segunda será um relatório financeiro e a terceira será a de previsões de venda.
Depois de todo esse trabalho realizado sobre a informação, tudo isso será transferido para uma base chamada Dados Dashboard, que será concentrada para que um Power BI se conecte ali. Mencionamos Power BI, mas pode ser qualquer outra ferramenta de Business Intelligence, como o Looker. No caso da nossa empresa, é o Power BI. Assim, o Power BI se conecta a essa base e terá todas as informações.
É interessante entender mais sobre os bastidores de uma perspectiva de engenharia e arquitetura de dados. Tínhamos muitos dados na organização e várias transformações ocorreram com esses dados para garantir que tivéssemos uma visão mais direta, objetiva e voltada ao propósito que queremos dar para aquela informação. Lembre-se disso, pois vamos trabalhar melhor esse conceito nas últimas aulas.
Antes de começarmos a mexer com os metadados e conhecê-los melhor, gostaria de explicar mais sobre como funciona essa arquitetura de medalhão, mas faremos isso no próximo vídeo.
No último vídeo, nós exploramos a iniciativa de lançar um novo produto no mercado: um cereal matinal voltado para o público infanto-juvenil. Foi interessante descobrir que grande parte da companhia se mobilizou para esse lançamento, que é extremamente importante para nossa organização. Por isso, o time de pesquisa e desenvolvimento trabalhou para entender a necessidade de mercado do produto, o time de marketing contribuiu com uma campanha eficaz, e o time de dados, que nos interessa bastante, realizou um trabalho notável.
Primeiramente, foi desenvolvido um modelo de machine learning (aprendizado de máquina) capaz de prever o volume de vendas esperado. Além disso, temos várias bases de dados em nossa organização que nos ajudam a verificar se as previsões estão se concretizando, se os resultados estão abaixo ou acima do esperado. Isso demonstra como os dados nos proporcionam uma visão mais aprofundada sobre o lançamento de um novo produto no mercado.
De um ponto de vista mais técnico, analisamos quais bases de dados estão sendo utilizadas para esse propósito e observamos que elas passam por várias transformações, divididas em diferentes camadas. Hoje, o assunto da nossa aula é justamente sobre essas diferentes camadas, conhecidas como arquitetura de medalhão.
A arquitetura de medalhão é uma forma de organizar dados dentro de uma organização, especialmente aquelas que utilizam data lakehouse como método para criar um ambiente analítico. Essa abordagem visa maximizar duas coisas: o reuso das informações e a eficiência das informações quando há um uso muito específico dos dados. Para entender melhor, é importante compreender como essas camadas funcionam.
Nos primórdios, temos a camada bronze, que é uma cópia exata da fonte. Quando pensamos em dados de produtos diários, vendas diárias, pedidos diários, lucro diário para o produto, receita diária para o produto e previsões de vendas, essas informações geralmente existem em sistemas da organização dentro do ambiente transacional. É importante diferenciar o ambiente transacional, onde as transações de fato acontecem, como compras e vendas, do ambiente analítico, onde podemos acessar esses dados para gerar relatórios e inteligência. Fazemos essa separação para não sobrecarregar os sistemas transacionais e porque a organização dos dados no ambiente analítico facilita a criação de análises.
No ambiente transacional, as informações não estão tão bem estruturadas e não são fáceis de serem recuperadas para criar um relatório. Portanto, copiamos essas informações de cada sistema para a camada bronze, que é uma cópia fiel do sistema de origem, geralmente transacional. Copiamos os dados como estão, sem alterações. Por exemplo, na bz_vendas, dentro do database bronze vendas, as vendas de produtos diários têm como origem um sistema transacional da empresa, provavelmente o sistema de vendas. O mesmo ocorre com o financeiro, onde copiamos os dados para o ambiente analítico, o Data Lakehouse, para facilitar o uso. Fazemos uma cópia exata para não sobrecarregar o sistema transacional e para permitir operações que facilitam o uso dos dados ao longo do tempo.
Após a camada bronze, temos a camada silver, onde ganhamos qualidade e usabilidade da informação. A camada silver é orientada ao domínio, o que significa que os dados devem ser apresentados de forma que toda a organização possa utilizá-los. Quando trazemos as bases de vendas da camada bronze para a silver, obtemos uma base confiável para uso, como vendas versus pedidos de um novo produto, que podemos segmentar por dia, mês ou outra temporalidade. O mesmo ocorre com o financeiro, que concentra informações em uma base silver chamada receita e lucro do novo produto. O time de data science também traz previsões de vendas para a silver, eliminando registros inválidos e duplicados, pois a camada silver exige maior qualidade dos dados. Esses dados podem ser utilizados por várias pessoas da organização.
Na camada gold, orientada ao uso, partimos de uma camada silver bem curada e eficiente. Se somos do time de marketing, por exemplo, devemos nos conectar à camada silver, identificar o caso de uso importante, as transformações, agregações e agrupamentos necessários, e criar uma nova camada gold. Assim, a camada silver pode ser usada por muitas pessoas, mas cada uma pode criar uma nova base em gold conforme suas necessidades. Temos um novo database dedicado ao novo produto, com relatórios e bases de alta granularidade, atendendo ao caso de uso específico. Na camada gold, fazemos mais uma transformação para concentrar dados, facilitando a conexão com ferramentas de BI para criar dashboards e visualizações.
Em resumo, na arquitetura de medalhão, temos a camada bronze como cópia fiel da fonte, a camada silver orientada à qualidade e domínio, e a camada gold orientada ao uso. Embora não faça parte da arquitetura de medalhão, há um nível adicional de especialização da informação para servir dashboards. Agora, podemos prosseguir para entender e conhecer mais sobre os metadados dessa iniciativa.
O curso Governança de dados: Qualidade de metadados possui 193 minutos de vídeos, em um total de 47 atividades. Gostou? Conheça nossos outros cursos de Governança de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Matricule-se no plano PLUS e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Mobile, Programação, Front-end, DevOps, UX & Design, Marketing Digital, Data Science, Inovação & Gestão, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Para estudantes ultra comprometidos atingirem seu objetivo mais rápido.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.