Primeiras aulas do curso Estatística II: Aprofundando em hipóteses e correlações

Estatística II: Aprofundando em hipóteses e correlações

Provando ou Desprovando: Testes de Hipótese - Testes de Hipótese

Vamos continuar nossa discussão do curso passado. Para isso vejo um exemplo:

Um laboratório criou um novo remédio com o propósito de acabar com a febre das pessoas. Queremos descobrir se esse remédio faz efeito nos pacientes ou não. Como fazer isso? Em primeiro lugar, não temos condições de acesso a toda população com febre no planeta, portanto trabalharemos em cima de uma amostra.

Porém, como podemos descobrir, com um certo nível de confiança, se a amostra realmente reflete a população total? Para isso existem os Testes de Hipótese.

Como o próprio nome já diz, devemos nos servir de uma primeira hipótese, que chamamos de H0 (ou Hipótese Nula), que é aquilo que queremos desafiar:

H0: o remédio não abaixa a febre

A H0 supõe que os grupos não mudam após o experimento. O que queremos agora é que ela seja falsa, queremos provar o contrário dela.

Então criamos uma outra hipótese, a Halt (ou Hipótese Alternativa):

Halt: o remédio abaixa a febre

Por que é a Hipótese Alternativa que procuramos? Porque provar que alguma coisa acontece é impossível. Não conseguimos provar que o remédio funciona.

Precisamos mostrar que H0 é falsa. Provando isso, consequentemente Halt é verdadeira.

Fazendo o Teste

Medimos a febre de uma população de 100 pessoas, e descobrimos que a média da temperatura corporal delas é de 38,3 graus Celsius.

Colocando os dados em uma distribuição, desenhamos o gráfico:

Após medicarmos essas 100 pessoas com o nosso remédio, observamos que sua temperatura corporal média foi para 36,3 graus Celsius.

Apesar da diferença ser grande, será que esses dados são suficientes para nos dizer se o remédio funciona?

A ideia aqui é verificar qual a chance da média ser 36,3. É uma questão de probabilidade. Se a chance for muito baixa, por exemplo de 5%, então ou milagre ocorreu ou descartamos a H0.

Por motivos de cálculo estatístico, nós utilizamos o conceito de Nível de Confiança, logo, nesse caso, ele é de 95%. Se voltarmos para o gráfico, perceba que a chance da temperatura medida estar nos extremos é pequena.

Note que os 5% foi dividido na metade e distribuído nos extremos do gráfico.

Esse é o p-value, é a probabilidade, nesse caso, de medirmos 36,3 na distribuição onde a média era 38,3. E se esse número for pequeno o suficiente, nós descartamos H0 e aceitamos Halt.

Ao rodar um Teste de Hipótese em um programa, fique atento ao p-value. Se ele for menor que 0,05, ou seja 5%, descarte a Hipótese Nula e aceite a Hipótese Alternativa.

Existem vários Teste de Hipóteses para cada tipo de distribuição. Dois deles são os que nos interessa:

Agregando com o que aprendemos na aula passada:

Two Tailed Test, One-Sided Test

Mas e se:

  1. nosso remédio aumentasse a febre?
  2. estivermos experimentando o remédio para saber qual seu efeito?

Estamos preocupados aqui com os dois lados: os valores crescerem ou diminuírem. No gráfico que já mostramos os valores estão em ambos os lados da distribuição.

Isso é o que chamamos de Two Tailed Test, ou seja, estamos olhando para os dois extremos.

Preste atenção que depende muito da maneira como você formula seu problema. Se, no exemplo, tivéssemos a certeza de que o remédio só abaixa a febre, poderíamos olhar para apenas um dos extremos.

Esse é um caso de One Sided Test.

A ferramenta de estatística, quando você for rodar o t-test (ou Wilcoxon), ira perguntar se o teste é Two Tailed ou One-sided.

Um outro exemplo

Em termos práticos, se conseguirmos formular a Halt utilizando o sinal de diferente (?), as coisas ficam mais fáceis de serem visualizadas.

Queremos descobrir se a média de salário das mulheres é diferente da dos homens no Estado de SP.

HO: os salários são *iguais***

Halt: os salários são *diferentes***

"Diferente" significa ser maior ou menor, então olhamos para ambos os lados da distribuição.

No primeiro exemplo, como queríamos saber apenas se o remédio abaixava a febre, olhamos para apenas um dos lados.

Revendo

Em um Teste de Hipótese:

Praticando: Teste de Student e Wilcoxon - Teste de Student e Wilcoxon

Agora que você já sabe o que é um Teste de Hipótese, está na hora de colocar isso em prática no R. Vamos utilizar o mesmo exemplo da aula passada: o remédio que abaixa a febre.

Nós temos as temperaturas dos pacientes antes e depois do remédio distribuídas em duas listas. Para isso vamos rodar um comando cuja função é gerar lista de números aleatórios, o "runif(a*, *b, c)", onde:

Gerando as listas x1 e x2:

> x1 <- runif(30, 37.9, 38.8)
> x1
 [1] 38.74792 38.22167 38.56094 38.22982 38.05435 38.04450 38.44803 38.38801
 [9] 38.34245 38.68356 38.46291 38.16700 38.74269 37.93675 38.34229 38.54316
[17] 38.65470 38.54693 38.70671 38.26695 38.52493 38.61315 37.93684 38.31222
[25] 38.62993 37.90442 38.43821 38.30228 38.46592 38.18555
> x2 <- runif(30, 36.0, 38.2)
> x2
 [1] 37.33031 36.16080 36.21709 37.20106 36.12353 36.56028 36.02856 37.70127
 [9] 36.16858 36.87020 36.41650 37.70985 36.22291 36.63952 37.32194 38.17058
[17] 36.58636 36.07406 37.86259 37.59871 36.29155 36.17606 36.52225 37.52026
[25] 36.06786 38.10855 37.55266 38.17772 36.48584 37.57940

A nossa H0 é aquela hipótese que queremos anular, ou seja, de que o remédio não faz efeito. A Halt é que o remédio faz a diferença na temperatura do corpo da pessoa.

Teste do Estudante

Vamos, enfim, rodar o Teste do Estudante, utilizando o comando "t.test( )":

> t.test(x1, x2)

        Welch Two Sample t-test

data:  x1 and x2
t = 10.3637, df = 35.542, p-value = 2.757e-12
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.178394 1.752133
sample estimates:
mean of x mean of y 
 38.38016  36.91490

Perceba que o p-value é muito pequeno, então podemos facilmente descartar nossa Hipótese Nula e aceitar a Hipótese Alternativa.

Se lermos o manual do "t-test" veremos que é possível rodá-lo como pareado, ou seja, comparar a mesma pessoa antes e depois. Outra ferramenta importante é a alternative, na qual você pode escolher se quer rodar o teste como Two Tailed ou como One-sided.

Teste de Wilcoxon

Podemos utilizar as mesmas listas e rodar o Teste de Wilcoxon, para distribuições não Normais, com o comando "wilcox.test ( )":

> wilcox.test(x1, x2)

        Wilcoxon rank sum test

data:  x1 and x2
W = 883, p-value = 2.05e-14
alternative hypothesis: true location shift is not equal to 0

Aqui o p-value também deu muito pequeno. Mas lembre-se: primeiro precisamos ter certeza se a distribuição é Normal ou não.

Correlação e Causalidade - Correlação e Causalidade

Na aula passada estudamos sobre Testes de Hipótese, cuja ideia era verificar se duas amostras são diferentes. Vimos o exemplo do remédio para febre: ao analisar duas amostras verificamos se a diminuição da febre ocorria de verdade ou era por sorte.

Nesta aula vamos comparar duas variáveis, porém de maneira diferente. Veremos a correlação entre elas, ou seja, quando uma muda a outra também muda junto. Por exemplo: quanto mais nuvens no céu maior a área onde a chuva cai. Vejamos um exemplo com duas variáveis quaisquer X e Y:

XY
12
24
36
48

Percebe-se uma relação muito forte entre essas duas variáveis. Quando X cresce, Y também cresce na mesma proporção. Se traçarmos um gráfico:

Nesse caso temos uma correlação linear, além de ser perfeita, pois não possui sequer um ponto fora da curva. Chamamos essa correlação perfeita de +1.0. Em exemplos reais é quase impossível chegarmos a esse tipo de correlação. Muito provavelmente você encontrará algo parecido com isso:

A questão aqui é qual será a melhor linha reta a ser traçada por esses pontos.

Essa linha nos indica graficamente a correlação entre as variáveis, quanto uma influencia a outra.

Nós estudamos a correlação entre variáveis construindo essa linha e medindo a distância entre ela e os pontos.

Geralmente, funções de correlação nos retornam valores entre -1 e 1. - ]0, 1]: a correlação é positiva, se uma variável cresce, a outra cresce. - [-1, 0[: a correlação é negativa, se uma variável cresce, a outra decresce. - zero: não há correlação alguma entre as variáveis.

Veja o que seria um gráfico no qual a correlação entre duas variáveis é zero ou quase zero:

Da mesma forma que selecionamos qual Teste de Hipótese ou Tendência Central utilizaremos para cada tipo de dado, também devemos observar as amostras para escolher o tipo de Teste de Correlação que melhor se adequa.

ATENÇÃO: Correlação não implica em Causalidade. Ou seja, mesmo havendo uma alta correlação entre duas variáveis, isso não significa que uma causa a outra.

Sobre o curso Estatística II: Aprofundando em hipóteses e correlações

O curso Estatística II: Aprofundando em hipóteses e correlações possui 37 minutos de vídeos, em um total de 37 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

  • 1246 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1246 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1246 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1246 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso por 1 ano

Estude 24h/dia onde e quando quiser

Novos cursos todas as semanas