Análise Exploratória: Primeiros passos

Iremos aprender sobre Análise Exploratória de Dados. Vamos conhecer sobre Conjuntos de Dados (Dataset) e assim extrair melhores resultados. Veremos alguns conceitos antes como: O que é um DataSet e Dicionário de Dados. Conhecer essas nomenclaturas, simplifica o aprendizado na hora prática da Análise Exploratória de Dados.

Dataset

Assim como o próprio nome, um Dataset trata-se de um conjunto de dados. Formado normalmente por colunas e muitas linhas, cada valor é conhecido como um dado. O conceito indica que todas as informações já estão presentes em uma tabela única.

Tendem a possuir um cabeçalho com os nomes bem definidos para cada coluna e podem conter duplicidades de informações e/ou dados nulos. Esses DataSets são conjuntos de dados normalmente organizados por temas.

Então é comum você encontrar Dataset sobre Filmes de uma plataforma, ou então Dataset de vendas de produtos de um site, Dados do IBGE, Sobre determinada doença. Exemplo de visualização de um Dataset.

print de uma tela de banco de dados

Eles formam um conjunto de informações sobre um assunto a ser analisado e normalmente o intuito é que seja visualizado através desses dados, possibilidades de melhorias, identificação de padrões ou resoluções de problemas.

Existem sites especializados em centralizar Datasets para serem utilizados em pesquisas ou até competições. Sendo assim, vamos conhecer como poderíamos trabalhar melhor nos conjuntos de dados?

Dicionário de Dados

Um dicionário de dados é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados. A ideia é melhorar a comunicação entre todos os envolvidos no projeto de Análise de Dados.

O dicionário de dados funciona como um mapa, servindo de guia, mostrando os objetivos e sem apresentar ambiguidades nas informações. O contexto em que a informação foi coletada, melhora significativamente a qualidade das análises de dados construídas a partir dos dados coletados.

print de uma tela de banco de dados

Conhecer os tipos de dados, tamanho, origem entre outros é primordial para uma análise de qualidade, além de se alinhar com as regras de negócios.

Infelizmente é muito raro encontrar Dataset com dicionário. É uma prática que deveria se tornar mais frequente e que agrega muito valor. A seguir deixo um modelo disponível para download:

Modelo disponível para download

Espero que estes conceitos tenham ficado claros. Aqui na Alura, temos a formação de Data Science que aborda desde a Exploração e Análise de Dados até Aprendizado de Máquina, onde você será capaz de criar seus próprios modelos. Data Science.

Até mais!

Victor
Victor

Apaixonado por #A.I, #B.I, #Data Science, #Machine Learning, resolver problemas, inovar, criar e aprender.Mergulhador no mar de informações.

Veja outros artigos sobre Programação