Classificando os tipos mais comuns de dados

Classificando os tipos mais comuns de dados
cassia-sampaio
cassia-sampaio

Compartilhe

Outro dia estava analisando dados de uma empresa que produz lápis de cor e canetas. Fui começar a análise identificando quais eram os tipos de dados.

Para isso, abri o arquivo de uma planilha e na primeira linha, me deparei com os seguintes dados:

----------------------------------
Azul | Vermelho | Amarelo | Branco
----------------------------------

Olhando para esses dados, nós conseguimos subtraí-los? Por exemplo, fazer uma conta que é azul menos vermelho.

---------------------------------
Azul - Vermelho = ?
---------------------------------

Não conseguimos, certo?

Veja que não conseguimos fazer contas com Azul, Vermelho, Amarelo, Branco, mas podemos usá-los para dizer algo sobre uma caneta.

Podemos falar que é uma caneta azul, e assim, estamos dando uma qualidade para esse objeto.

Quando temos dados que não conseguimos atribuir um valor numérico, fazer contas aritméticas, ou dizer qual é uma quantidade que os significa, estamos falando de dados considerados qualitativos.

Essa é a primeira das classificações mais comuns que estamos vendo, a de dados qualitativos.

Agora sabemos que o nosso dado pode ser qualitativo. Mas a classificação não pára por aí, há também tipos de dados qualitativos.

Dados qualitativos nominais

Voltando para o nosso conjunto de dados,

------------------------------------
Azul| Vermelho | Amarelo | Branco|
------------------------------------

se mudarmos a ordem dos elementos, você acha que faria diferença. Logo, se tivermos

------------------------------------
Vermelho | Azul | Branco | Amarelo |
------------------------------------

estamos olhando para algo muito diferente de Azul, Vermelho, Amarelo, Branco?

Repare que não estamos. Com esses dados a ordem não faz diferença. Podemos ter tanto Azul, Branco, Vermelho, Amarelo quanto Branco, Vermelho, Azul, Amarelo.

O que mostra que esses dados qualitativos são apenas palavras, nomes, e por isso também os chamamos de nominais.

Agora já sabemos que quando temos dados com os quais não podemos fazer contas, ou seja, qualitativos, e que também podemos trocá-los de posição que não faz diferença pois são apenas nomes, que esses dados são classificados como qualitativos nominais.

Mas vamos ver também outra classificação.

Dados qualitativos ordinais

Além da tabela com as cores dos lápis, a empresa tinha uma outra tabela com dados para satisfação do cliente quanto aos produtos.

Quando eu abri esse arquivo, percebi que era um novo conjunto de dados:

------------------------------------
Ótimo| Bom | Neutro | Ruim | Péssimo
------------------------------------

Para sabermos como classificá-los, vamos fazer a mesma pergunta que fizemos para as cores, agora para esses dados.

Conseguimos subtrair ótimo de péssimo?

--------------------------------
Ótimo - péssimo = ? 
--------------------------------

Também não, certo.

Também não conseguimos dizer, por exemplo que ótimo vale 5, ou vale 10, ou mesmo 20. A não ser que a gente afirme que ótimo vale 5, não há um valor em números pré estabelecido para essa palavra.

Partindo disso, podemos concluir que, como as cores, estes são dados qualitativos.

Mas será que também como as cores, podemos trocá-los de lugar que não fará diferença?

Se antes tínhamos

---------------------------------------
| Ótimo | Bom | Neutro | Ruim |Péssimo|
---------------------------------------

agora teremos

---------------------------------------
| Péssimo | Bom | Ruim | Ótimo |Neutro
---------------------------------------

E veja como neste caso faz diferença.

Fica claro que temos uma gradação, uma ordem, um ranking. Então, no primeiro exemplo, estamos indo de ótimo para péssimo, do melhor para o pior, passando por bom, neutro e ruim.

Logo, temos algo muito bom, aí baixa para bom, fica neutro então ruim e aí péssimo. Essa mudança que acompanhamos faz sentido.

Mas, no segundo exemplo, começamos em péssimo e então deveríamos ir para ruim, só que vamos para bom, de bom vamos para ruim, de ruim para neutro e então terminamos com ótimo. Ficou uma bagunça desse jeito, não é mesmo?

Com a alteração que fizemos, acabamos ficando sem ranking nenhum. O que temos agora são só algumas palavras e não mais algo que está variando de maior para menor ou de menor para maior. E por quê?

Porque a ordem em que desses dados importa, faz diferença. Logo, eles são classificados como ordinais. Ou melhor, são dados qualitativos ordinais.

Dados quantitativos

Fui continuando a minha análise, ainda tinham algumas planilhas para dar uma olhada.

A próxima planilha que abri tinha os seguintes dados nas primeiras linhas:

-----------------------------------------
| Caixa A | Caixa B | Caixa C | Caixa D |
-----------------------------------------
| 12      | 24      | 36      | 48      |
-----------------------------------------

Pelo o que podemos ler na tabela, na primeira coluna temos os nomes das caixas de lápis de cor com seus identificadores A, B, C, D, e na segunda, temos quantos lápis de cor têm em cada caixa.

Se olharmos para a primeira coluna, não temos como somar ou subtrair a Caixa A da Caixa B, certo? Então sabemos que nessa coluna temos dados qualitativos. Vamos ir mais fundo, e se trocarmos a ordem, faz diferença ali? Então, ao invés de:

Teremos:

-----------------------------------------
| Caixa D | Caixa B | Caixa C | Caixa A |
-----------------------------------------

Faz diferença, pois o alfabeto tem uma ordem. Então, sabemos que na primeira coluna temos dados qualitativos ordinais. Tudo certo por enquanto, mas e na segunda coluna, qual o tipo de dado que temos?

Para descobrir, vamos fazer as mesmas perguntas que fizemos antes. Conseguimos subtrair 12 de 24?

-----------------------------------------
| 24 - 12 = 12
-----------------------------------------

E finalmente conseguimos, sabemos que 24 - 12 = 12.

Então, desta vez, nessa coluna não estamos diante de dados qualitativos, mas de dados que falam sobre quantos lápis de cor têm numa caixa, falam da sua quantidade, logo, podemos chamá-los de dados quantitativos.

Agora, diferente dos dados qualitativos, temos dados que conseguimos atribuir um valor numérico, fazer contas aritméticas, ou dizer qual é uma quantidade que os significa.

Mas a classificação também não pára por aí, e do mesmo modo que tínhamos tipos de dados qualitativos, também temos tipos de dados quantitativos.

Dados quantitativos discretos

Para classificar melhor esses dados, vamos voltar para a nossa tabela.

-----------------------------------------
| Caixa A | Caixa B | Caixa C | Caixa D |
-----------------------------------------
| 12      | 24      | 36      | 48      |
-----------------------------------------

Olhando apenas para a segunda coluna, já sabemos que os dados 12, 24, 36 e 48 são dados quantitativos.

Mas agora iremos alterar essa tabela para incluir uma Caixa E.

Ao incluirmos essa nova caixa, você conseguiria dizer qual a próxima quantidade de lápis?

--------------------------------------------------
| Caixa A | Caixa B | Caixa C | Caixa D | Caixa E
--------------------------------------------------
| 12      | 24      | 36      | 48      | ?
--------------------------------------------------

E se eu chutasse que a próxima quantidade é 28,11 lápis. Faria sentido? Vamos analisar.

Anteriormente, subtraímos 12 de 24, e sabemos que isso dá 12. E se agora subtraímos 24 de 36? Também dá 12.

----------------
| 24 - 12 = 12 |
--------------
| 36 - 24 = 12 |
----------------

E se subtrairmos 36 de 48? Adivinha? Também 12.

----------------
| 24 - 12 = 12 |
--------------
| 36 - 24 = 12 |
----------------
| 48 - 36 = 12 |
----------------

Então, se na subtração sempre resta 12, se invertermos e somarmos cada um dos números, estamos sempre somando 12 também.

----------------
| 12 + 12 = 24 |
----------------
| 24 + 12 = 36 |
--------------
| 36 + 12 = 48 |
----------------

O que significa que o nosso próximo número da tabela só pode ser 48 + 12, que é 60.

-------------------------------------------------
| Caixa A | Caixa B | Caixa C | Caixa D | Caixa E
-------------------------------------------------
| 12      | 24      | 36      | 48      | 60
-------------------------------------------------

Quando fizemos essas contas, sabemos que sempre temos 12 a mais, sem nenhuma dúvida.

Repare que não estamos tentando achar um valor que fique entre 12 e 24, não temos algo que poderíamos chamar de incerto, mas um dado preciso. Conseguimos contar esses números, inclusive saber qual seria o próximo valor.

Mas, se fizemos as contas e sabemos que esse número tem que ser 60, porque antes eu chutei tão longe em 28, 11 lápis? Apenas para despistar, pois há uma diferença bem grande entre 60 e 28,11.

Neste caso, um dos maiores problemas do número 28,11 é o ,11. Observe que não há caixas de lápis de cor com 28 e 0,11 lápis. Seria estranho se contássemos lápis dessa maneira. Ou melhor, nem conseguiríamos contá-los. Ou temos um lápis de cor, ou não temos lápis. É difícil (para não dizer impossível) termos 0,12 lápis de cor, por exemplo.

Quando temos dados quantitativos que são precisos, que conseguimos contar, como os de lápis de cor, esses dados são chamados de discretos.

Ou seja, ao falarmos daquela segunda coluna na tabela, estamos falando de dados quantitativos discretos.

Dados quantitativos contínuos

Agora que já vimos como classificar os dados dessa planilha, vamos seguir.

Eu ainda tinha um último arquivo para que eu analisasse no projeto. Abri o arquivo, e mais uma vez encontrei uma tabela:

-----------------------------------------
| Caixa A | Caixa B | Caixa C | Caixa D |
-----------------------------------------
| 129     | 165     | 210     | 275     |
-----------------------------------------

Veja que temos a mesma coluna do que a tabela anterior, mas desta vez, ao invés de quantidade de lápis, temos o peso de cada uma das caixas.

Para definirmos que tipo de dado é esse. Vamos iniciar as nossas perguntas.

Conseguimos subtrair 0,129 de 0,165? Conseguimos.

-----------------------------------------
0,165 - 0,129 = 0,36
-----------------------------------------

Beleza, então se conseguimos realizar operações aritméticas, sabemos que estamos diante de dados quantitativos. Mas será que esses dados são quantitativos discretos?

Para determinarmos isso, vamos repetir aquele processo de incluir uma Caixa E na tabela e calcular o seu valor.

Caixa A = 129
Caixa B = 165
Caixa C = 210
Caixa D = 275
Caixa E = ? 

Precisamos descobrir qual seria o peso dessa caixa, mas repare que não temos uma balança e nem a caixa física para realizarmos uma pesagem, teremos que usar apenas algumas contas.

Então vamos lá:

165
129
36
210
165
45
275
210
65

Veja que há uma diferença grande ao realizarmos o mesmo processo para essa tabela.

Primeiro, pois não há um valor se repetindo no resultado quando subtraímos os pesos das caixas, segundo porque, como iremos ter certeza do quanto uma nova caixa pesaria com as contas?

Não temos como resolver o fato de que não há um número que se repita, então vamos tentar melhorar nossos cálculos. Podemos pegar todos esses valores diferentes e tentar ver o quanto cada um aumenta e depois somar uma média desses aumentos ao último valor.

Vamos lá. Iremos ver primeiro o quanto cada um deles aumenta. Para isso, precisamos saber quanto é diferença entre eles, fazendo também uma subtração:

45 - 36 = 9
65 - 45 = 20

Ok. Sabemos que o primeiro teve um aumento de 0,09 e o segundo de 0,20. Vamos somar os dois valores e dividi-los pela sua quantidade que é 2 para ver o quanto dá.

9 + 20 = 29
29 / 2 = 14.5

Então temos uma média de 0,145 a mais de um valor a outro. Com esse número, podemos tentar sugerir que a Caixa E, tivesse um aumento de 0,145 no peso. Ficando com a tabela assim:

Caixa A = 129
Caixa B = 165
Caixa C = 210
Caixa D = 275
Caixa E = 420

Ir de 0,275 para 0,420 parece um pouco exagerado, certo? Os números estavam bem próximos e de repente demos um pulo. Será que ainda precisamos melhorar mais?

Para isso, podemos tentar estimar fazendo mais contas e usando o peso da caixa, o peso de cada lápis. E qual seria o problema disso? Ainda assim teríamos uma estimativa, não teríamos como ter certeza. Diferentemente de quando fizemos isso antes, agora só conseguimos estimar.

Mas porque? Por causa do nosso tipo de dado.

Repare que estamos lidando com um dado diferente do quantitativo discreto aqui, então as mesmas regras são se aplicam. Com esses novos dados, não temos quantidades que podemos contar, não vamos apenas somando quilos, como 1kg, 2kg, 3kg e assim por diante, temos variações como 1,200kg, 2,374kg e 3,821kg. Entre os números 1 e 2, temos infinitas possibilidades, por isso fica tão difícil achar um número.

Estamos mais próximos agora do 28,11 do que do 60, pois não estamos contando lápis, mas medindo seu peso.

Quando estamos lidando com algo que medimos, temos números diferentes que possuem variações, como se estivessem continuando. Então não são só 28, 29 e 30, mas 28, 1, 28,2, 28,3 até chegarmos ao 28,11 e podemos ir quebrando esses números em 28,111 e 28,112, 28,113 sempre adicionando mais casas após a vírgula.

Quando temos dados quantitativos que são medidas, que tem essa continuidade, eles são classificados como dados quantitativos contínuos.

Dados e mais dados...

Vimos como temos alguns tipos de classificação de dados que podem se dividir entre qualitativos e quantitativos. E além disso, como cada uma dessas classificações se subdivide no caso do qualitativo, entre qualitativo nominal e qualitativo ordinal, assim como para o quantitativo, entre quantitativo discreto, quantitativo contínuo.

Mas não pára por aí. Além dessas classificações de dados, existem alguns outros tipos de classificações que podemos utilizar. Como a classificação de dados em qualitativos binomiais, quantitativos intervalares, até mesmo em qualitativo discreto nominal, ou quantitativo contínuo racional, entre outros.

Muitas vezes ao procurar online ou em livros, você pode encontrar dados qualitativos sendo classificados como categóricos, ou classificações que não mencionam dados intervalares, iremos explicar porque isso acontece e ampliar a nossa visão do que é uma classificação de dados.

A classificação de dados é algo muito importante quando estamos começando a analisá-los, principalmente nas áreas de Ciência de Dados, BI e Estatística.

Aqui na Alura, temos uma formação de estatística onde você irá aprender sobre esses tipos de dados, e também sobre conceitos como a diferença entre moda, média, mediana, e muitas outras coisas. Tudo isso será feito utilizando a linguagem R, uma linguagem criada para cálculos estatísticos.

Aproveite esses recursos de estudo e até a próxima.

Veja outros artigos sobre DevOps