Alura > Cursos de Data Science > Cursos de Governança de Dados > Conteúdos de Governança de Dados > Primeiras aulas do curso Governança de Dados: priorização de dados críticos

Governança de Dados: priorização de dados críticos

Por que priorizar dados? - Apresentação

Apresentando os instrutores

Olá! Seja bem-vindo ao curso de Priorização ou Criticidade de Dados da carreira de Governança de Dados. Meu nome é Allan Henrique Souza Carvalho, sou gerente de Governança de Dados em uma seguradora no Brasil. Além disso, sou professor na pós-graduação de Data Analytics da FIAP e também produzo conteúdos para a Alura. Você provavelmente já deve ter visto algum curso meu.

Olá! Sou formado em Economia, possuo um MBA em Big Data e Analytics, e atualmente estou cursando um mestrado em Computação Aplicada.

Audiodescrição: Sou um homem branco, com barba e cabelos escuros e curtos. Minha pele é clara e estou vestindo uma camiseta preta. Ao fundo, há uma parede com tonalidade azul.

Introduzindo o curso de priorização de dados

Espero que aproveitem este curso, que foi desenvolvido para compor uma carreira em Governança de Dados. Vamos abordar um tema muito específico: a questão de priorização e criticidade dos dados. Discutiremos como diferenciar quais dados são importantes para o negócio e quais são menos relevantes.

Espero que gostem e nos encontramos na primeira aula.

Por que priorizar dados? - O que faz um dado ser realmente importante

Iniciando o curso de priorização de dados

Bem-vindos ao nosso curso. Vamos iniciar o curso de Priorização ou Criticidade de Dados. Para começar, afirmamos que nem todo dado é igual. Isso é algo que precisamos internalizar quando falamos de governança de dados, pois lidamos com uma grande quantidade de informações, incluindo dados transacionais de sistemas. Em uma empresa grande, falamos de dezenas de milhares de tabelas, que geram milhões de colunas e campos. Portanto, é essencial entender que nem todos os dados têm a mesma criticidade ou importância para o negócio.

Precisamos identificar quais dados devem ser priorizados para desenvolver uma estratégia eficaz de dados. Se considerarmos a gestão de qualidade de todos os dados em um ambiente com tantas tabelas, precisaríamos de um time de governança de dados de 200 a 300 pessoas, o que é inviável. Assim, é necessário identificar os dados estratégicos para o negócio e reconhecer que eles têm pesos diferentes. Devemos priorizar e escolher onde investir nosso tempo e recursos, pois não faz sentido para uma empresa ter 300 pessoas em uma área de governança de dados.

Compreendendo dados críticos e sua importância

Ao trabalhar com governança de dados, começamos a estudar e ouvir alguns termos recorrentes, como "dado crítico". Dado crítico é aquele que sustenta processos, decisões e conformidade. Toda informação de uma tabela que é fundamental para um processo, tomada de decisão ou para atender a alguma legislação ou conformidade pode ser classificada como dado crítico. Falhas nesses dados podem gerar prejuízos reputacionais e financeiros, e a empresa precisa trabalhar para evitar esse tipo de penalização ou risco.

Quando falamos de priorização, referimo-nos a esses dados críticos. Já temos um vislumbre da diferença entre dados normais e críticos. Focar nos dados certos gera mais valor, reduz desperdícios e torna o trabalho mais assertivo, alinhando-se ao que é importante para o negócio. A governança de dados deve garantir que o negócio não enfrente barreiras, que tenha a informação certa no momento certo e que possa tomar as melhores decisões com base em dados organizados e catalogados. Identificar os dados mais importantes e trabalhar neles é um pilar fundamental da governança de dados.

Direcionando investimentos e recursos na governança de dados

A priorização orienta os investimentos em qualidade, segurança e na própria governança. Temos uma capacidade limitada de atenção e recursos, por isso é crucial direcioná-los adequadamente.

Para onde devemos olhar? Em que devemos investir? Nossa equipe deve focar em garantir a qualidade de qual conjunto de dados, de qual coluna daquela tabela gigantesca que temos em nosso banco de dados? A priorização é o segredo.

Explorando o conceito de valor e risco segundo DAMA-DMBOK

Quando falamos de DAMA-DMBOK, que é nossa referência em governança de dados, se ainda não conhece, fica a dica pós-curso: procure saber, há um livro que já está na segunda edição. O que ele fala sobre valor e risco? Ele recomenda avaliar os dados pelo valor ao negócio e pelo risco associado. Basicamente, é isso. Se temos um conjunto de tabelas, um conjunto de colunas em uma determinada tabela, qual coluna e qual conjunto de tabelas têm mais valor para o negócio e, ao mesmo tempo, impactam em um determinado risco de não ter aquela informação?

Chegamos, então, à questão do dado crítico. Podemos considerar como dados críticos as colunas ou conjunto de colunas ou conjunto de tabelas que têm alto valor para o negócio e alto risco. Quanto maiores forem esses dois fatores, mais crítico é esse dado. Logo, devemos priorizá-lo em detrimento de outros conjuntos de dados que, às vezes, têm mais valor, mas não tanto risco, ou têm tanto risco e não tanto valor. Se pensarmos na composição de valor para o negócio e alto risco, esse é o dado que devemos priorizar.

Conectando priorização à governança de dados

Como esse tema se conecta à governança de dados? Por que devemos pensar nisso em nossa carreira? Por que existe este curso específico que aborda apenas a priorização de dados? A priorização é um dos pilares da governança de dados. Quando falamos de catalogar, é um processo muito importante, a catalogação de dados. Mas, às vezes, precisamos escolher. Não conseguimos catalogar todo o ecossistema de tabelas e colunas na velocidade que a empresa exige. Então, o que devemos catalogar primeiro? A que devemos dar mais atenção? Em que devemos colocar nosso especialista para olhar com cuidado, para sentar com a área de negócio e discutir? Para traçar estratégias de melhorar a qualidade dos indicadores?

Tudo isso está em função do dado mais importante para o negócio. Priorizar é um dos pilares de governança de dados porque orienta todos os outros pilares. Orienta em qual dado devemos trabalhar com catalogação com mais atenção, qual é o dado que produz um termo de negócio, que também é outro pilar importante de governança de dados, qual é o dado que precisamos empregar um critério de qualidade de dados, calcular a completude, consistência, para garantir que esse dado esteja aderente ao que o negócio precisa.

Concluindo a importância da priorização

A priorização é como se fosse a base que orienta todo o investimento em governança de dados. Ela orienta políticas, controles, investimentos, catalogação. Tudo que mencionamos aqui é a base para governança de dados porque habilita todas as outras funções que temos em governança.

No próximo vídeo, vamos falar, na prática, sobre a questão de valor e risco, e citaremos alguns exemplos para começar a formar essa imagem em nossas mentes. Acredito que já temos uma noção do que é priorizar dados e por que isso é tão importante. No próximo vídeo, daremos mais um passo. Obrigado e até lá.

Por que priorizar dados? - Priorização na prática valor, risco e exemplos reais

Introduzindo a importância da priorização de dados

Olá, sejam bem-vindos à nossa próxima aula. Já fizemos uma breve introdução sobre a importância de priorizar dados, abordando questões de valor, risco e como isso está diretamente ligado ao negócio. Discutimos por que a governança de dados deve dar atenção especial a certos dados e não a todos. Agora, vamos aprofundar mais e analisar critérios práticos para governar dados.

Imaginemos que, neste momento, já estamos fazendo alguma associação. Se já estamos no mercado ou trabalhamos em uma empresa que tem acesso a dados, podemos estar imaginando aquele conjunto de dados que temos na empresa. Já entendemos que determinada coluna ou tabela é um dado que parece ser crítico. Vamos apresentar alguns exemplos práticos e diretos de como priorizar dados.

Analisando critérios para priorização de dados

O primeiro critério é o valor para o negócio. Qual é a importância daquele dado para o processo? Se estamos falando, por exemplo, de uma área de clientes ou marketing, que gera mailings para campanhas, o e-mail e o telefone da tabela de clientes são fundamentais. O sucesso da campanha pode depender dessas duas colunas da nossa tabela, gerando muito valor para a área de negócio.

Outro critério é o risco. Qual é o risco se o dado estiver indisponível ou vazar? Quando falamos de uma tabela de RH ou financeira, onde temos informações de salário por CPF, nome de funcionário ou patrimônio de uma pessoa em uma instituição financeira, o risco de vazamento é crítico. Dependendo do vazamento, a empresa pode perder representatividade no mercado, e as pessoas podem não confiar mais em deixar seus investimentos ou patrimônio ali. Portanto, a questão do risco é muito importante.

Considerando uso, compliance e sensibilidade dos dados

Devemos também considerar o uso. Qual é a frequência de uso desse dado? Quantos processos dependem dessa tabela ou informação? Isso é crucial. Voltando ao exemplo da campanha de marketing, se temos uma tabela para campanhas de marketing por WhatsApp toda semana e, na mesma tabela, e-mails enviados uma vez por mês, em uma situação de recursos limitados, priorizaríamos a coluna usada com mais frequência.

A questão de compliance também é relevante. O dado está associado a alguma política, norma ou lei? No mercado segurador, por exemplo, a SUSEP regula as seguradoras no Brasil. Existem tabelas criadas ou utilizadas dentro das seguradoras para gerar relatórios mensais para órgãos reguladores como a SUSEP. Mesmo que esses dados não gerem valor direto para o negócio ou sejam usados esporadicamente, se estão associados a normas ou leis, é fundamental garantir sua qualidade e disponibilidade para evitar sanções, multas ou a impossibilidade de praticar um produto no mercado.

Por fim, a sensibilidade do dado é crucial. Hoje em dia, vemos muitas notícias sobre vazamentos de dados de clientes por bancos ou empresas, o que prejudica a imagem da empresa. A questão da LGPD (Lei Geral de Proteção de Dados) também traz penalizações em caso de vazamentos. Portanto, a sensibilidade é outro ponto importante a considerar ao priorizar um conjunto de dados.

Criando um checklist para priorização de dados

Antes de avançarmos, vamos analisar se conseguimos criar um checklist em nossa atividade de trabalho para determinar se um dado é crítico ou não. Devemos considerar valor para o negócio, risco, uso, compliance e sensibilidade. Se um dado atingir todos esses critérios com alta pontuação, ele é um dado de alto valor, alto risco, uso frequente, dependente de compliance e sensível. Esse é o dado que devemos priorizar e trabalhar em todas as funções de governança de dados.

Caso contrário, pontuamos cada conjunto de dados e cada tabela, resultando em um ranking de dados mais importantes para o negócio. Assim, atendemos de acordo com nossa capacidade. Como comentado no vídeo anterior, a priorização orienta investimentos e controles. Ao ordenar nosso conjunto de dados e colunas de acordo com esses critérios, conseguimos identificar onde investir, seja em recursos financeiros para contratar uma empresa terceirizada, seja em horas disponíveis do nosso time para trabalhar em uma determinada atividade.

Implementando controles e políticas proporcionais ao risco

Quando classificamos nossos conjuntos de dados de acordo com a priorização e os critérios estabelecidos, sabemos onde investir e onde podemos alocar mais tempo, deixando algumas atividades para um segundo momento. É sobre esses dados mais bem classificados que definimos controles e políticas proporcionais ao risco. Se um dado é muito crítico, criamos auditorias semestrais ou trimestrais para acompanhar se todo o processo de ingestão e o pipeline do nosso time de engenharia estão sendo realizados corretamente, e se a área de segurança de dados está implementando as camadas de segurança necessárias.

Damos mais atenção a esses dados classificados em todos os aspectos, seja na governança, seja nas áreas parceiras, como engenharia, segurança e arquitetura. Esse é o nosso foco total. E o que acontece quando não priorizamos? Podemos pensar: "Muito interessante tudo o que foi dito, mas vou fazer do meu jeito, vou tratar todos os dados de forma igualitária." Isso nos expõe a um grande risco de sofrer multas. Como mencionado, em uma seguradora, lidamos com centenas de milhares de tabelas, gerando milhões de colunas. Se não priorizarmos os conjuntos de dados ou não identificarmos o que é mais importante, podemos deixar de atender uma tabela fundamental, sujeita a questões regulatórias, e sofrer multas.

Discutindo as consequências da falta de priorização

Além disso, podemos enfrentar retrabalho, pois, sem atenção especial a um conjunto de dados, ele pode ser utilizado para tomada de decisão e, se estiver incorreto, a equipe de marketing precisará refazer o estudo, impactando a produtividade e gerando retrabalho em outras áreas, não apenas na governança. Por fim, há o risco de perder clientes. Se nossas campanhas não estiverem baseadas em dados críticos, podemos ser menos assertivos. Ou, ao realizar um estudo para identificar regiões prioritárias, se a tabela de resultados não for priorizada, podemos tomar decisões erradas ou imprecisas sobre investimentos e apetite ao risco.

Portanto, é crucial priorizar conjuntos de dados, tabelas e informações para evitar essas situações no negócio. O oposto também é interessante: ao priorizar dados, evitamos multas, que podem ser um critério quantitativo de resultado da nossa área. Quem trabalha em governança de dados sabe que um dos maiores desafios é quantificar sua importância dentro da empresa. Muitas vezes, é visto apenas como um custo, com pessoas dedicadas a escrever políticas e criar regras. No entanto, evitar uma multa já é um benefício da governança de dados.

Refletindo sobre os benefícios da priorização de dados

Quando melhoramos processos ou evitamos retrabalho, se conseguimos quantificar o valor hora ou o resultado de campanhas, ou aumentar a quantidade de campanhas devido a processos mais fluidos, isso também é um benefício contabilizável da governança de dados na empresa. É importante refletir sobre a diferença entre não priorizar e priorizar, pois o ganho financeiro que a governança de dados proporciona à empresa é significativo.

No próximo vídeo, faremos um breve resumo para consolidar o que abordamos neste capítulo e avançaremos no decorrer do curso.

Sobre o curso Governança de Dados: priorização de dados críticos

O curso Governança de Dados: priorização de dados críticos possui 82 minutos de vídeos, em um total de 47 atividades. Gostou? Conheça nossos outros cursos de Governança de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Governança de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas