Profiling de dados e qualidade: conhecendo bases e aumentando sua usabilidade

Imagine que você é um analista de governança de dados em uma empresa que processa celulose.

Uma nova regulamentação voltada para reduzir o desmatamento exige que todo lote de madeira recebido seja acompanhado da origem e do certificado que comprove que a madeira veio de uma fonte legal.

Você foi encarregado de garantir a qualidade dos dados relacionados à origem dos lotes de madeira, assegurando que todas as informações estejam em conformidade com a nova regulamentação e melhorem a usabilidade desse ativo na organização.

No entanto, há um problema: você não sabe quais dados estão nessa base e nem o nível de qualidade atual dela. Isso impede qualquer ação até que você conheça melhor a base de dados.

Embora existam várias formas de se familiarizar com uma base, uma das mais eficientes é o profiling de dados, ou perfis estatísticos de dados, que é capaz de apresentar diversas informações sobre o ativo de forma simples.

Nesse artigo, vamos explorar essa técnica e sua relação com a qualidade dos dados. Vem comigo!

O que é profiling

Profiling de dados é a ação de examinar um conjunto de dados para extrair estatísticas e informações.

Esse conceito é bastante amplo; por exemplo, "passar o olho" em uma planilha do Excel procurando padrões é uma forma rudimentar de profiling.

Hoje, porém, existem métodos mais eficientes, baseados em programas e bibliotecas que extraem diferentes métricas dos dados e resumem essas informações de forma clara.

Essas técnicas também são úteis para trabalhos com dados não estruturados, permitindo a extração de informações mesmo sem uma estrutura definida para aquele conjunto de dados.

Como usar o profiling para conhecer dados

No exemplo citado anteriormente, no qual você se depara com uma base desconhecida, o uso do profiling é recomendado porque é uma maneira rápida e eficiente de conhecer os dados com os quais vai trabalhar.

Uma forma de fazer isso é usando diversas bibliotecas Python que são especializadas na criação de profilings, como a Pandas Profiling ou a Data Profiling da Capital One, que pode gerar um arquivo PDF com diversas informações sobre a base.

Essas informações incluem tipos de dados, valores possíveis, valores máximos e mínimos, entre outras métricas que ajudam a entender como os dados se comportam.

Com essas informações, você pode tomar decisões mais informadas sobre como melhorar a qualidade dessa base.

Qualidade de dados

Qualidade de dados se refere a quão bem os dados refletem a realidade e se estão disponíveis quando necessários.

Uma forma eficiente de medir essa qualidade é o framework DAMA, que avalia a base de dados em cinco dimensões:

Completude: Verificação se todos os dados necessários estão presentes.
Consistência: Garantia de que os dados são uniformes e sem conflitos.
Precisão: Os dados refletem corretamente a realidade.
Atualidade: Os dados estão atualizados e são relevantes.
Unicidade: Eliminação de duplicações.

Garantir qualidade nessas dimensões é essencial para a tomada de decisões informadas, conformidade regulatória e eficiência operacional.

Dados incompletos ou imprecisos podem levar a decisões erradas, multas regulatórias e perda de confiança dos stakeholders.

Usando o profiling para garantir a qualidade dos dados

Em posse das informações estatísticas da base, podemos aproveitar essas informações para aferir, de forma mais simples, a qualidade da base.

Isso pode ser feito verificando o número ou porcentagem para cada uma das colunas, já que a completude é uma das dimensões da qualidade de dados.

Além disso, podemos observar algumas outras métricas relacionadas com a qualidade, como a contagem de valores distintos para cada uma das colunas, uma vez que valores baixos de valores distintos indicam variáveis categóricas.

Apenas a partir dessas informações podemos criar regras de qualidade quanto à quantidade de valores nulos permitidos para as colunas (idealmente 0%) ou até mesmo regras que apontem que os únicos valores admitidos para uma determinada coluna com poucos registros únicos sejam aqueles encontrados no profiling.

Outra métrica útil do profiling são os valores máximos e mínimos de uma coluna. Por exemplo, se a coluna "idade" tem valores entre 18 e 103 anos, podemos criar uma regra que aceite valores entre 16 e 115, permitindo casos excepcionais (outliers).

Conclusão

Com esse tipo de técnicas, e também ajuda dos metadados: nomes das colunas, descrições e tipos de dados, podemos criar diversas regras de qualidade a fim de garantir que aquela base possui qualidade.

Conhecer os dados é essencial para criar regras eficazes, e os métodos de profiling são uma excelente forma de obter esse conhecimento.

Dessa forma, a qualidade de dados é fortemente beneficiada pelos métodos como o profiling de dados.