Análise Exploratória: primeiros passos | Alura

Análise Exploratória: primeiros passos | Alura
Victor Gonzalez
Victor Gonzalez

Compartilhe

Neste artigo, aprenderemos sobre Análise Exploratória de Dados, abordando conceitos como: Conjuntos de Dados para extrair melhores resultados, DataSet e Dicionário de Dados.

Conhecer essas nomenclaturas é essencial para simplificar o aprendizado na hora de realizar a Análise Exploratória dos Dados. Vamos lá?

O que é análise exploratória de dados?

A análise exploratória de dados (ou Exploratory Data Analysis - EDA, em inglês) é um tipo de exploração e de análise de dados.

Ou seja, é através dessa abordagem que cientistas de dados podem ter uma visão panorâmica sobre os dados. E mais do que isso: conseguem extrair algum conhecimento a partir deles. Por isso, é um processo fundamental na rotina de trabalho de todas as pessoas que trabalham com Ciência de Dados

Banner da Escola de Programação: Matricula-se na escola de Programação. Junte-se a uma comunidade de mais de 500 mil estudantes. Na Alura você tem acesso a todos os cursos em uma única assinatura; tem novos lançamentos a cada semana; desafios práticos. Clique e saiba mais!

Elementos da análise de dados exploratória

Como vimos, a análise de dados exploratória é uma etapa essencial no processo de investigação e compreensão de conjuntos de dados.

Essa abordagem, muitas vezes considerada a primeira etapa na análise estatística, utiliza elementos que ajudam a entender a estrutura e a natureza dos dados, identificando possíveis relações e padrões ocultos.

A seguir, conheceremos os principais componentes desta análise.

Dataset

Assim como o próprio nome indica, um Dataset é um conjunto de dados formado normalmente por colunas e linhas, em que cada valor é conhecido como um dado.

O conceito indica que todas as informações já estão presentes em uma tabela única.

Ele tende a possuir um cabeçalho com os nomes bem definidos para cada coluna e pode conter duplicidades de informações e/ou dados nulos.

Dessa forma, os DataSets são conjuntos de dados que costumam ser organizados por temas.

É comum encontrar Dataset sobre filmes de uma plataforma, ou então Dataset de vendas de produtos de um site, dados do IBGE sobre determinada doença, entre outros.

Confira um exemplo de visualização de um Dataset:

print de uma tela de banco de dados

Ele forma um conjunto de informações sobre um assunto a ser analisado e, normalmente, o intuito é que seja visualizado através desses dados, possibilidades de melhorias, identificação de padrões ou resoluções de problemas.

Existem sites especializados em centralizar Datasets para serem utilizados em pesquisas ou até competições. Sendo assim, vamos entender como poderíamos trabalhar melhor nos conjuntos de dados.

Dicionário de Dados

Um dicionário de dados é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados.

A ideia é melhorar a comunicação entre todas as pessoas envolvidas no projeto de Análise de Dados.

print de uma tela de banco de dados

O dicionário de dados funciona como um mapa, servindo de guia e mostrando os objetivos sem apresentar ambiguidades nas informações.

O contexto em que a informação foi coletada, melhora significativamente a qualidade das análises de dados construídas a partir das informações coletadas.

Conhecer os tipos de dados, tamanho, origem, entre outros detalhes, é primordial para uma análise de qualidade e o alinhamento com as regras de negócios.

Infelizmente, é muito raro encontrar Datasets com dicionário. É uma prática que deveria se tornar mais frequente e que agrega muito valor.

Espero que estes conceitos tenham ficado claros. Aqui na Alura, temos a formação de Data Science que aborda desde a Exploração e Análise de Dados até Aprendizado de Máquina, onde você será capaz de criar seus próprios modelos Data Science.

Até mais!

Victor Gonzalez
Victor Gonzalez

Mergulhador no mar de informações.

Veja outros artigos sobre Programação