Primeiras aulas do curso Estatística I: Entenda seus dados com R

Estatística I: Entenda seus dados com R

Qual é o tipo do seu dado? - Qual é o tipo do seu dado?

A ideia deste curso é ensinar Estatística Aplicada, ou seja, queremos que você aprofunde seus conhecimentos em média, mediana ou correlação, e saiba quando usar cada uma delas. Temos certeza que você já ouviu aquela frase: "existem mentiras, grandes mentiras e estatística". E isso não é tão mentira, porque se você não souber escolher o teste que irá aplicar, a função de média que usará, vai chegar em números que não explicam nada sobre o conjunto de dados que você tem.

Atualmente, a estatística é fundamental. Temos uma quantidade absurda de informações, na política, economia, esportes, ou mesmo na empresa em que trabalhamos, que vende inúmeros produtos para várias pessoas, e de onde é possível extrair informações. A estatística nos ajuda a entender um pouco mais sobre dados que envolvem a popularidade de um produto, daquilo que se vende menos, ajudando inclusive a predizer qual produto venderá mais, e quando isso vai ocorrer.

Mas, obviamente, é preciso entender estatística a fundo. Aqui, não adentraremos aquele "matematiquês" de como cada teste estatístico funciona. Claro, haverá um pouco de matemática pois não temos como fugir disso, no entanto este curso não é voltado para matemáticos, e sim para quem quer usar estatística e aplicá-la no dia a dia.

O primeiro ponto a ser entendido sobre estatística é em relação a números, e os tipos de dados que estamos usando naquele momento. Imagine um formulário indagando sobre seu sexo, cujas opções são as seguintes:

Trata-se de um tipo de dado que chamamos de Categórico, pois cada um é diferente do outro e não possuem relação ou hierarquia.

Outro tipo de dado comum é conhecido por dado Ordinal. Por exemplo, você acabou de fazer um curso e pedem para que o professor seja avaliado em uma escala de 1 a 10:

Nota: ( )1 ( )2 ( )3 ( )4 ( )5 ( )6 ( )7 ( )8 ( )9 ( )10

Neste tipo, existe uma ordem: 1 < 2 < 3 <...< 10. Mas não conseguimos fazer comparações do 1 para o 2. Existe a sensação de que de 1 para 2 é a mesma coisa que de 2 para 3, porém não conseguimos medir isto de maneira precisa. Esses intervalos podem variar de pessoa para pessoa. É diferente de medir, por exemplo, uma temperatura: em um ser humano com 36ºC, saberemos que é um valor preciso. De 36 para 37 a diferença é de exatamente um grau Celsius.

A temperatura, então, é um exemplo de dado Intervalar, e a diferença entre cada valor é precisa e mensurável:

25ºC -- 25,2ºC -- 26ºC

Outro tipo de dado, menos comum, é o Racional, bem parecido com o Intervalar, sendo composto de números em ordem, e cuja diferença de um para outro é mensurável. Porém, nesse tipo de dado, o 0 (zero) significa a ausência daquilo. Em se tratando da temperatura em Celsius, 0ºC significa que está frio, mas não a ausência de temperatura. Em graus Kelvin, 0K indica a ausência de temperatura. Nos estudos em Física, faz sentido lidar com os dados Racionais, porém em Estatística trabalharemos com os três primeiros tipos de dados: Categórico, Ordinal e Intervalar.

Dependendo do tipo de dado, é necessário escolher o método estatístico mais adequado. Posteriormente veremos se a média aritmética que aprendemos na escola faz sentido para qualquer tipo de dado. Conhecer o tipo de dado a ser trabalhado é fundamental.

Tendo isso em mente, vamos continuar. Em Estatística, raramente analisaremos apenas um número; nós a utilizamos porque temos vários dados e precisamos reduzi-los a um número que os traduza, para que possamos entendê-los de maneira fácil.

Vamos começar a agrupar dados!

Exemplo

Temos os nomes dos alunos de uma escola e a quantidade de aulas que cada um assistiu:

Agora queremos entender essas informações: quantas aulas os alunos assistem na escola? Para tal, utilizaremos um histograma, um gráfico que mostra a quantidade de frequências e quantas vezes elas se repetem.

Quantidade de aulas assistidasQuantidade de alunos
21
42
51
61

Perceba que temos a mesma informação disposta de outra maneira. Com essa tabela, conseguimos criar um gráfico que mostra a frequência dos acontecimentos na distribuição. Nesse exemplo utilizamos poucos dados, mas imaginemos uma distribuição maior.

Se traçarmos uma linha passando pelos topos desse gráfico, teremos uma curva muito importante chamada de Curva Normal. É essa curva que esperamos em uma distribuição comum. Se, por exemplo, desenharmos o histograma da altura de um homem brasileiro, teremos que poucos estarão nas faixas menores e maiores, e muitos nas faixas centrais.

Isto é, muita gente estará na média, e pouca nos dois extremos. Entender se a distribuição está dentro ou fora dessa curva também é de extrema importância para escolhermos o teste estatístico ideal. Falaremos sobre isso mais adiante.

Resumindo

Com essas informações, estamos prontos para começar a entender mais sobre estatística. Até a próxima aula!

Primeiros passos com R - Primeiros passos com R

Começamos nosso curso de Estatística com os tipos de dados, agora passaremos à prática. Esta aula servirá basicamente para introduzir a ferramenta R, uma linguagem de programação muito utilizada por estatísticos, com inúmeros comandos prontos.

Muitas pessoas gostam de utilizar o Microsoft Excel, que é uma boa ferramenta, mas não tanto para trabalhos mais avançados.

Instalação

É uma instalação padrão como a de qualquer software. Ele é gratuito, bastando baixá-lo da internet de acordo com o sistema operacional em uso. Após seguir os passos de instalação, você está pronto para utilizá-lo.

Nas nossas aulas utilizaremos a linha de comando diretamente, por ela ser independente do sistema operacional. Caso prefira, é possível baixar a versão com a interface gráfica.

Ao digitarmos R logo na primeira linha, o programa retorna diversas informações relacionadas à linguagem, como a versão instalada e algumas dicas. O R interpreta tudo que escrevermos: se digitarmos “1”, retornará “1”, se digitarmos “1+1”, retornará “2”. Ou seja, qualquer expressão matemática retornará seu resultado:

1

[1] 1

1+1

[1] 2

3*8+2/5

[1] 24.4

(3*7)/4

[1] 5.25

Também podemos utilizar parênteses para definir a precedência de operações, e outros operadores a que já estamos acostumados.

Variáveis

Podemos querer guardar resultados de operações para utilizarmos depois. Para tal, utilizamos o símbolo <-, que tem formato de seta, após o nome que queremos dar à essa variável (por exemplo “numero”):

numero <- (3*7)/4

Depois disso, toda vez que digitarmos numero e pressionarmos "Enter", o programa retornará o resultado da conta atribuída a essa variável:

numero
[1] 5.25

Podemos fazer contas com ela:

numero * 2
[1] 10.5

Listas

Outro comando muito importante para se guardar informações é o método c( ), que guardará uma lista de números. Funciona da mesma forma como guardamos uma variável:

lista <- c(1, 2, 3, 4, 5, 6)

Se digitarmos lista, teremos:

lista
[1] 1 2 3 4 5 6

Assim, podemos fazer operações com uma lista:

lista * 2
[1] 2 4 6 8 10 12

Conjunto de dados e histograma

Agora vamos utilizar o método de criar listas para montar histogramas, usando o exemplo da aula passada, em que tínhamos os dados de quantas aulas cada aluno assistiu na escola:

aulas <- c(2, 4, 4, 6, 6, 6, 6, 8, 8, 10)

Com esta lista de dados guardada podemos plotar um histograma de forma muito simples:

hist(aulas)

Será aberta uma janela com o histograma desenhado:

gráfico cujo eixo X representa a quantidade de aulas, e o Y a frequência delas

Temos a opção de customizar esse histograma por meio de comandos que encontramos digitando ?hist. Para voltar às linhas de comando basta digitarmos q.

Como você deve ter percebido, o R possui seu próprio manual. Dê uma lida nele para ir se acostumando com os comandos, uma vez que todas essas funções dão suporte a muitos usos. Outra opção é procurar esse manual, ou partes dele, na internet. Tente digitar “hist R” no Google.

Média, Mediana e Moda - Média, mediana e moda

Média Aritmética

Muito provavelmente você já deve ter estudado esse assunto na escola, e se pedirmos para você calcular a média, por exemplo, de 1, 2, 3 e 4, fará:

(1 + 2 + 3 + 4)/4 = 10/4 = 2,5

Portanto, de modo geral, teremos:

(x1 + x2 + x3 + ... + xn)/n

Será mesmo que, para todo conjunto de números, devemos utilizar a Média Aritmética para encontrarmos uma Tendência Central? Talvez. Devemos saber que tipo de dado possuímos, lembra-se da primeira aula de Estatística? A média serve para dados Ordinais ou Intervalares? Vejamos um exemplo:

Imagine que você é um professor, e que no final da aula você entrega um formulário para os alunos preencherem com a nota que eles te dariam, em um intervalo de 1 a 10:

Nota: ( )1 ( )2 ( )3 ( )4 ( )5 ( )6 ( )7 ( )8 ( )9 ( )10  [dado do tipo Ordinal]

Segue que:

Fazendo a média:

(10 + 1 + 1 + 1)/4 = 3,25

Não é estranho? O 10 dado pelo primeiro aluno não parece exceção? Você é, claramente, um professor nota 1! Perceba que escolher a Média Aritmética sem levar em conta o tipo de dado pode te levar a uma informação estranha.

Veja outro exemplo que pode nos enganar:

Em uma empresa, os salários dos funcionários são como se segue:

Calculando a média:

100.000 + 2000 + 2000 + 2000/4 = 26500

Você diria que a média dos salários da empresa é de 26500 reais? Não, porque 100.000 reais é uma exceção, e confunde a média real. Chegamos à conclusão de que precisamos pensar em outras soluções para o cálculo da Tendência Central de um conjunto de dados. A Média Aritmética é totalmente sensível aos valores que chamamos de outliers, ou pontos fora da curva.

A seguir, veremos outras maneiras de calcular a tendência central de um conjunto de dados.

Mediana

Para o cálculo da mediana, colocamos os valores dados em ordem crescente e escolhemos aquele que é central. Isso é fácil para quantidades ímpares de dados, pois haverá um número localizado bem no meio da amostra. Veja um exemplo:

1 1 6 1 5 10 1 1 1

Em ordem crescente:

1 1 1 1 1 1 5 6 10

O valor central é o 1, que é a nossa mediana. Para quantidades pares de dados, pegamos os dois valores centrais e calculamos sua Média Aritmética:

1 1 5 1 2 10 1 6 

Em ordem crescente:

1 1 1 1 2 5 6 10

Os valores centrais são, respectivamente, 1 e 2. A média entre eles é 1,5, e esta é a mediana que queríamos encontrar. Perceba que ela é menos suscetível aos outliers. Obviamente, não significa que a Média Aritmética não é uma boa medida de Tendência Central. Se sua distribuição é estável, a Média pode ser boa.

Então, como saber qual das duas usar? Inicialmente, verifique se os outliers são muito grandes e distantes do resto da amostra. Outra regra é que, se o tipo de dado for Ordinal, a média não é um bom método.

Moda

A moda é o elemento que mais se repete na distribuição:

1 1 2 2 2 2 2 3 3 5 5 5

Nessa amostra, o número 2 é o que mais se repete, logo ele é a nossa moda. Esta pode ser uma maneira honesta de se calcular a medida de Tendência Central.

Você irá perceber que, em uma amostra bem distribuída, a média, mediana e moda são iguais ou possuem valores muito próximos.

Dicas:

Sobre o curso Estatística I: Entenda seus dados com R

O curso Estatística I: Entenda seus dados com R possui 90 minutos de vídeos, em um total de 70 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

  • 1245 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1245 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1245 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1245 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso por 1 ano

Estude 24h/dia onde e quando quiser

Novos cursos todas as semanas