Alura > Cursos de Data Science > Cursos de Governança de Dados > Conteúdos de Governança de Dados > Primeiras aulas do curso Governança de dados: Qualidade de metadados

Governança de dados: Qualidade de metadados

Introdução à Qualidade de Metadados - Apresentação

Apresentando o instrutor e o curso

Olá! Meu nome é Pedro Henrique Campagna Moura da Silva e serei o instrutor deste curso sobre qualidade de metadados.

Audiodescrição: Pedro é um homem branco, de cabelo castanho curto e olhos castanhos. Ele veste uma camisa azul clara e está em um escritório com uma parede branca ao fundo e uma estante com livros à sua direita.

Introduzindo o projeto e objetivos do curso

Neste curso, trabalharemos dentro de uma empresa alimentícia para lançar um novo produto no mercado: um cereal voltado para o público infantojuvenil. Nosso foco será entender as relações entre as tabelas e identificar quais tabelas estão sendo utilizadas, principalmente por meio dos metadados. Nosso principal interesse será analisar a qualidade desses metadados.

Para isso, precisaremos converter artefatos, que são objetos JSON contendo várias informações, utilizando a linguagem de programação Python.

Preparando-se para o curso e ferramentas necessárias

Para aproveitar melhor este curso, é importante que tenhamos alguma experiência com metadados. Há um curso na Alura que pode nos ajudar com isso, então não precisamos nos preocupar. Vamos trabalhar com linguagem de programação, um pouco de orientação a objetos em Python, para criar classes que nos ajudarão a transformar esses artefatos em objetos de dados.

Explorando o processo de análise de metadados

Utilizaremos isso para montar uma tabela, analisar os metadados e, por fim, discutir em profundidade como aferimos a qualidade dos metadados. Finalmente, encerraremos o curso tentando entender por que realizamos esse processo e por que ele é tão importante.

Compreendendo a importância dos metadados

Além disso, vamos compreender como os dados se transformam em informações, que se transformam em conhecimento, utilizado de forma a adquirir sabedoria, e como os metadados e sua qualidade são fundamentais nesse processo.

Esperamos que gostem. Vamos começar!

Introdução à Qualidade de Metadados - Conhecendo o novo produto da empresa

Introduzindo o novo projeto de cereais matinais

Imaginemos o seguinte cenário: trabalhamos em uma das grandes empresas do setor alimentício do Brasil. Dentro dessa empresa, o time de pesquisa e desenvolvimento identificou um setor do mercado em que ainda não atuávamos: o setor de cereais matinais, aqueles que frequentemente vemos crianças consumindo pela manhã. A ideia, então, foi que toda a nossa empresa se organizasse, incluindo o time de desenvolvimento de produto e os times financeiros, para realizar um grande lançamento desse novo produto, que será um cereal matinal voltado para o público infanto-juvenil.

Baseado nisso, como nossa empresa utiliza muitos dados, seremos responsáveis por administrar os metadados dessa nova iniciativa. Para isso, precisamos conhecer melhor o cenário e entender como trabalhamos com dados dentro da nossa própria empresa.

Apresentando o diagrama de linhagem de dados

A primeira coisa que gostaríamos de mostrar, e talvez a mais interessante deste curso, é um diagrama. Este diagrama ilustra a linhagem de dados, desde a camada bronze, passando pela camada silver, chegando à camada gold, e, por fim, uma camada adicional que não faz parte da arquitetura padrão que nossa empresa utiliza para trabalhar com dados. Essa camada extra servirá para o uso de um dashboard que concentrará as principais informações sobre o novo produto.

Vamos tentar entender, com base nos dados, o que temos para trabalhar. Na camada bronze, que é o primeiro nível de trabalho das informações, onde os dados estão na forma mais bruta possível, temos diferentes bases que utilizaremos para agregar informações posteriormente. Vamos focar nessas inicialmente.

Explorando a camada bronze

Dentro de BZ Vendas, que interpretamos como um banco de dados chamado Bronze Vendas, provavelmente sob responsabilidade do time de vendas, temos uma base chamada Vendas de Produtos Diários. Também dentro de BZ Vendas, temos os Pedidos de Produtos Diários. Assim, já possuímos duas métricas importantes para acompanhar o lançamento deste produto: a quantidade de vendas e a quantidade de pedidos. No entanto, perceba que aqui não há nada específico, são as vendas e os pedidos de toda a empresa.

Do sistema financeiro, temos mais duas bases: a primeira é a de Lucro Diário para o Produto, e a segunda é de Receita Diária para o Produto. Dessa forma, fica mais fácil focar apenas nos dados do novo produto para obter um nível de comparação melhor.

Integrando previsões de vendas

A última tabela na camada bronze nos apresenta um artefato muito diferente de simplesmente tabelas provenientes de vários softwares ou sistemas distintos. O pessoal de Data Science realizou um trabalho junto ao lançamento para fazer uma previsão de vendas diárias. Isso demonstra como temos muita informação para trabalhar e como uma empresa do nosso porte consegue alavancar os dados para identificar oportunidades no mercado para lançar esse tipo de produto.

No lançamento, conseguimos acompanhar as vendas dos produtos, os pedidos, o lucro e a receita que esse novo produto está gerando. Além disso, nosso time de Data Science nos ajudou fazendo uma previsão de vendas. Com essa iniciativa, podemos verificar se estamos acompanhando a previsão, se estamos melhores ou piores que a previsão e se precisamos fazer alguma alteração na estratégia de marketing ou qualquer coisa do tipo. Lembrando que esse não é o foco do nosso curso, pois estamos aqui para trabalhar com os metadados, mas é interessante conhecer mais sobre essa iniciativa.

Transformando dados na camada silver

Após a camada bronze, passamos para a camada silver. Os dados são transformados na camada silver de maneira que fiquem mais corretos. Qualquer tipo de incorreção ou problema nos dados deve ser resolvido na camada bronze, e não devem ser carregados para a camada silver. Vamos trabalhar mais essa ideia de um medalhão, que é essa arquitetura que você está vendo em outro vídeo, não se preocupe.

Na camada silver, teremos o SL Vendas, que é o Silver Vendas, com as vendas versus os pedidos do novo produto. Das bases que estávamos usando para criar essa tabela, que são as de produtos diários, de vendas e pedidos de produtos diários, já fizemos uma seleção daquilo que nos interessava e trouxemos para a camada silver. Das duas tabelas de financeiro, vamos criar outra tabela de financeiro, já em silver, que se chamará Receita e Lucro do Novo Pedido. Na silver de Data Science, teremos uma previsão de vendas em uma base mais curada e pronta para que alguém possa utilizá-la.

Consolidando dados na camada gold

Essas informações serão passadas para mais uma camada de qualidade da informação e de orientação de uso, que é a camada gold. Na camada gold, teremos um dataset, na verdade, um database todo para esse nosso novo produto, e dentro dele teremos algumas bases diferentes. A primeira será de métricas de venda, a segunda será um relatório financeiro e a terceira será a de previsões de venda.

Depois de todo esse trabalho realizado sobre a informação, tudo isso será transferido para uma base chamada Dados Dashboard, que será concentrada para que um Power BI se conecte ali. Mencionamos Power BI, mas pode ser qualquer outra ferramenta de Business Intelligence, como o Looker. No caso da nossa empresa, é o Power BI. Assim, o Power BI se conecta a essa base e terá todas as informações.

Concluindo com a arquitetura de dados

É interessante entender mais sobre os bastidores de uma perspectiva de engenharia e arquitetura de dados. Tínhamos muitos dados na organização e várias transformações ocorreram com esses dados para garantir que tivéssemos uma visão mais direta, objetiva e voltada ao propósito que queremos dar para aquela informação. Lembre-se disso, pois vamos trabalhar melhor esse conceito nas últimas aulas.

Antes de começarmos a mexer com os metadados e conhecê-los melhor, gostaria de explicar mais sobre como funciona essa arquitetura de medalhão, mas faremos isso no próximo vídeo.

Introdução à Qualidade de Metadados - Entendendo a arquitetura de medalhão

Explorando a iniciativa de lançamento de produto

No último vídeo, nós exploramos a iniciativa de lançar um novo produto no mercado: um cereal matinal voltado para o público infanto-juvenil. Foi interessante descobrir que grande parte da companhia se mobilizou para esse lançamento, que é extremamente importante para nossa organização. Por isso, o time de pesquisa e desenvolvimento trabalhou para entender a necessidade de mercado do produto, o time de marketing contribuiu com uma campanha eficaz, e o time de dados, que nos interessa bastante, realizou um trabalho notável.

Primeiramente, foi desenvolvido um modelo de machine learning (aprendizado de máquina) capaz de prever o volume de vendas esperado. Além disso, temos várias bases de dados em nossa organização que nos ajudam a verificar se as previsões estão se concretizando, se os resultados estão abaixo ou acima do esperado. Isso demonstra como os dados nos proporcionam uma visão mais aprofundada sobre o lançamento de um novo produto no mercado.

Introduzindo a arquitetura de medalhão

De um ponto de vista mais técnico, analisamos quais bases de dados estão sendo utilizadas para esse propósito e observamos que elas passam por várias transformações, divididas em diferentes camadas. Hoje, o assunto da nossa aula é justamente sobre essas diferentes camadas, conhecidas como arquitetura de medalhão.

A arquitetura de medalhão é uma forma de organizar dados dentro de uma organização, especialmente aquelas que utilizam data lakehouse como método para criar um ambiente analítico. Essa abordagem visa maximizar duas coisas: o reuso das informações e a eficiência das informações quando há um uso muito específico dos dados. Para entender melhor, é importante compreender como essas camadas funcionam.

Explicando a camada bronze

Nos primórdios, temos a camada bronze, que é uma cópia exata da fonte. Quando pensamos em dados de produtos diários, vendas diárias, pedidos diários, lucro diário para o produto, receita diária para o produto e previsões de vendas, essas informações geralmente existem em sistemas da organização dentro do ambiente transacional. É importante diferenciar o ambiente transacional, onde as transações de fato acontecem, como compras e vendas, do ambiente analítico, onde podemos acessar esses dados para gerar relatórios e inteligência. Fazemos essa separação para não sobrecarregar os sistemas transacionais e porque a organização dos dados no ambiente analítico facilita a criação de análises.

No ambiente transacional, as informações não estão tão bem estruturadas e não são fáceis de serem recuperadas para criar um relatório. Portanto, copiamos essas informações de cada sistema para a camada bronze, que é uma cópia fiel do sistema de origem, geralmente transacional. Copiamos os dados como estão, sem alterações. Por exemplo, na bz_vendas, dentro do database bronze vendas, as vendas de produtos diários têm como origem um sistema transacional da empresa, provavelmente o sistema de vendas. O mesmo ocorre com o financeiro, onde copiamos os dados para o ambiente analítico, o Data Lakehouse, para facilitar o uso. Fazemos uma cópia exata para não sobrecarregar o sistema transacional e para permitir operações que facilitam o uso dos dados ao longo do tempo.

Detalhando a camada silver

Após a camada bronze, temos a camada silver, onde ganhamos qualidade e usabilidade da informação. A camada silver é orientada ao domínio, o que significa que os dados devem ser apresentados de forma que toda a organização possa utilizá-los. Quando trazemos as bases de vendas da camada bronze para a silver, obtemos uma base confiável para uso, como vendas versus pedidos de um novo produto, que podemos segmentar por dia, mês ou outra temporalidade. O mesmo ocorre com o financeiro, que concentra informações em uma base silver chamada receita e lucro do novo produto. O time de data science também traz previsões de vendas para a silver, eliminando registros inválidos e duplicados, pois a camada silver exige maior qualidade dos dados. Esses dados podem ser utilizados por várias pessoas da organização.

Focando na camada gold

Na camada gold, orientada ao uso, partimos de uma camada silver bem curada e eficiente. Se somos do time de marketing, por exemplo, devemos nos conectar à camada silver, identificar o caso de uso importante, as transformações, agregações e agrupamentos necessários, e criar uma nova camada gold. Assim, a camada silver pode ser usada por muitas pessoas, mas cada uma pode criar uma nova base em gold conforme suas necessidades. Temos um novo database dedicado ao novo produto, com relatórios e bases de alta granularidade, atendendo ao caso de uso específico. Na camada gold, fazemos mais uma transformação para concentrar dados, facilitando a conexão com ferramentas de BI para criar dashboards e visualizações.

Resumindo a arquitetura de medalhão

Em resumo, na arquitetura de medalhão, temos a camada bronze como cópia fiel da fonte, a camada silver orientada à qualidade e domínio, e a camada gold orientada ao uso. Embora não faça parte da arquitetura de medalhão, há um nível adicional de especialização da informação para servir dashboards. Agora, podemos prosseguir para entender e conhecer mais sobre os metadados dessa iniciativa.

Sobre o curso Governança de dados: Qualidade de metadados

O curso Governança de dados: Qualidade de metadados possui 193 minutos de vídeos, em um total de 47 atividades. Gostou? Conheça nossos outros cursos de Governança de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Governança de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas