Alura > Cursos de Data Science > Cursos de Data Science > Conteúdos de Data Science > Primeiras aulas do curso Estatística avançada: comparação entre grupos

Estatística avançada: comparação entre grupos

ANOVA One-Way: comparando três ou mais grupos - Apresentação

Apresentando a instrutora e sua experiência

Olá! Meu nome é Rosemary Nascio de Andrade, sou cientista de dados por vocação e profissão. Atuo no mercado como cientista de dados há mais de 20 anos, tendo experiência no mercado financeiro, em empresas de saúde, e como líder de equipes de data science. Atualmente, sou consultora de empresas no universo de ciência de dados, colaborando com diversos tipos de negócios.

Audiodescrição: Rosemary é uma mulher de pele branca, com cabelos pretos e lisos, que estão abaixo da altura dos ombros. Ela veste uma blusa branca e usa óculos de grau. Ao fundo, há um conjunto de luzes lilás.

Introduzindo o conteúdo do curso

Neste curso, abordaremos testes estatísticos para comparação de médias e testes para avaliar a associação de dados. Dentro do universo das ferramentas estatísticas, esses dois conjuntos são conhecimentos e conteúdos muito importantes que a pessoa cientista de dados utiliza no cotidiano de trabalho, independentemente da área de atuação ou do momento de desenvolvimento do projeto. Esses são recursos valiosos para entender o comportamento dos dados e das variáveis e, a partir deles, resolver problemas diretamente ou utilizar essas informações para nos guiar ao longo do desenvolvimento dos nossos projetos.

Vamos aprender muito além da teoria, colocando em prática todo o nosso conhecimento com projetos reais, vivenciando a experiência do dia a dia de uma pessoa cientista de dados em diversas áreas de negócios. Vamos juntos nessa jornada!

ANOVA One-Way: comparando três ou mais grupos - Entendendo o problema

Introduzindo o objetivo do estudo

Imaginem que somos um time de ciência de dados de uma plataforma de streaming e nossa empresa deseja entender qual tipo de filme engaja mais os usuários. Para isso, foi solicitado que realizássemos um teste de comparação entre dois trailers produzidos pela equipe de marketing. A partir dessa comparação, entenderemos qual dos dois filmes engaja mais o público, proporcionando à empresa informações mais confiáveis para direcionar o desenvolvimento e distribuição de filmes na plataforma.

Planejando a análise inicial

Diante dessa demanda, reunimos-nos para planejar a análise e aqui está o passo a passo de como será realizado esse estudo. Selecionaremos dois grupos de usuários, retirando duas amostras representativas da população de usuários da plataforma, e criaremos dois grupos. Para cada um desses grupos, apresentaremos um tipo de trailer. Em seguida, registraremos o tempo médio de visualização de cada trailer, que será a medida de engajamento utilizada. O tipo de trailer com maior tempo médio de visualização será considerado o preferido, ou seja, o que causou mais engajamento no público, e será o que a empresa deve desenvolver.

Extrapolando os resultados para a população

No sexto passo do nosso planejamento, extrapolaremos o resultado encontrado nesse teste com os dois grupos para a população, como se tivéssemos realizado o teste com todos os usuários da plataforma, identificando assim o tipo de filme preferido por todos os usuários.

O que nos permite fazer essa extrapolação? Dado que vamos tirar apenas uma amostra do nosso público para cada grupo, o que nos permite extrapolar esse resultado para a nossa população? São alguns fundamentos que já vimos na aula anterior: o teorema do limite central e o teste T para comparação de duas médias. Com base nessa fundamentação teórica, temos a confiabilidade para, a partir do resultado encontrado na nossa amostra, conseguirmos extrapolar isso para o nosso público geral.

Ajustando o planejamento para incluir um terceiro trailer

Durante o planejamento, houve uma pequena mudança na demanda. Nossa equipe de marketing verificou que uma empresa concorrente estava obtendo bons resultados com filmes futuristas, e a empresa decidiu aproveitar nosso teste, que já iríamos realizar, para testar mais um tipo de trailer. Agora, teremos que comparar não dois tipos, mas três. Para isso, teremos três grupos de usuários, ou seja, três amostras do nosso grupo de usuários. Para cada um desses grupos, vamos apresentar um tipo de trailer e comparar, identificando qual desses três apresenta o maior tempo de visualização, ou seja, o maior engajamento do nosso público.

Identificando a ferramenta estatística adequada

No entanto, o teste T não é mais o teste ideal para realizarmos esse tipo de análise, pois ele é elaborado para testar apenas duas médias, com um nível de confiança ajustado para isso. Se usarmos o teste T para testar mais do que duas médias, nosso erro do tipo 1, ou seja, a chance de entender que existe uma diferença entre o tempo médio para os grupos quando, na verdade, essa diferença não existe, aumenta muito. Portanto, não é a ferramenta ideal para utilizarmos nesse caso.

Agora, vamos ver qual é a ferramenta ideal que utilizaremos para realizar o teste de comparação de três médias.

ANOVA One-Way: comparando três ou mais grupos - Estudando o Anova One Way

Explicando a técnica da ANOVA One-Way

Agora, vamos entender melhor como funciona a técnica da ANOVA One-Way, que é a ANOVA de variância com um fator. A ANOVA nos ajuda a comparar três médias de uma só vez e nos responde se o tempo médio de visualização dos três trailers é igual. Utilizamos a ANOVA One-Way porque, nesse caso, estamos comparando uma variável dependente contínua, que é o tempo de visualização dos trailers, e temos uma única variável independente categórica com três níveis, que são os três grupos para os três tipos de filmes a serem testados.

A hipótese que a ANOVA avalia é a hipótese nula, que verifica se as médias de todos os grupos são iguais. A hipótese alternativa é que pelo menos uma das médias desses grupos é diferente das outras duas. Vamos abordar alguns elementos importantes para entender como funciona o cálculo da ANOVA. Passaremos pela estatística F, discutiremos sua construção, falaremos sobre a distribuição F e entenderemos as premissas da ANOVA, que são nossas travas de segurança para garantir resultados confiáveis ao extrapolar para a população. Também entenderemos como é feito o teste de hipótese.

Exemplificando o cálculo da estatística F

Vamos trazer um exemplo para entender a lógica por trás do cálculo da estatística F e como é implementada a metodologia da ANOVA. Consideremos uma tabela com uma amostra de três tempos de visualização dos usuários para cada tipo de trailer disponibilizado. Esse tempo está em segundos. Para o drama, tivemos um usuário que visualizou por 100 minutos, outro por 101, e outro por 102, com um tempo médio de visualização de 101. Fizemos isso para cada tipo de trailer, com uma amostra de tamanho 3.

No cálculo ao lado, estamos calculando a variação interna dentro de cada grupo. No primeiro conjunto de cálculos, chegamos à variação interna para o grupo de drama, que é igual a 2. Pegamos o valor do tempo de visualização de cada usuário, subtraímos o tempo médio de visualização do grupo, elevamos essa diferença ao quadrado e obtivemos o número 1. Repetimos isso para as outras duas observações. A variação interna desse grupo, calculada dessa maneira, é 2 para esse conjunto de três elementos da amostra. Fizemos o mesmo cálculo para comédia e futurista, e a variação interna dentro desses grupos também foi 2. Ao somarmos esses três conjuntos de variação, verificamos a soma de quadrados dentro dos grupos. Chamamos de soma de quadrados porque fizemos uma diferença, elevamos ao quadrado e somamos essas variações, chegando ao número 6. O total de elementos pontuados nessa soma é 9, pois temos três diferenças para cada usuário.

Calculando a soma de quadrados entre grupos

Agora, vamos pensar na mesma tabela que vimos anteriormente. Para cada tipo de trailer, temos o mesmo conjunto de dados amostrados dos usuários. Queremos entender quanto a média do tempo médio de visualização do grupo de drama se distancia da média geral dessa tabela, que é 103. Calculamos essa diferença para todas as médias. Fizemos 101 menos 105, que é a média do grupo futurista, menos 103, elevamos ao quadrado e o valor deu 12. Multiplicamos por 3 para termos uma base de comparação para o passo seguinte. Esse 3 representa os três usuários dentro do grupo futurista. Multiplicamos a diferença entre a média desse grupo e a média geral por 3, resultando em 12. Repetimos o mesmo passo para o grupo de comédia, onde 103 menos 103 dá zero, e para o grupo de drama, onde 101 menos 103 ao quadrado vezes 3 dá 12. Chamamos a soma dessas diferenças de soma de quadrados entre os grupos. Ao somar, o número é 24, com o mesmo número de elementos do slide anterior.

O próximo passo é dividir essas duas somas de quadrado para essa tabela. A soma de quadrados entre os grupos foi 24, e a soma de quadrados dentro dos grupos foi 6. Dividindo, temos 24 sobre 6, que chamamos de F, resultando em 4. Agora, imagine outra tabela. Quando repetimos esse processo para essa nova tabela, o cálculo do F, na razão da soma de quadrados entre os grupos e dentro do grupo, dá um valor bem maior, 508. Temos o mesmo número de elementos, com 9 amostras de tempo de visualização em ambas as tabelas. O que será que acontece para esse número mudar?

Análise de cenários e estatística F

O que fez essa razão mudar? Ao observarmos a tabela inicial, percebemos que os tempos médios de visualização de cada grupo são muito semelhantes à média geral. Os valores são 101, 103 e 105. No cenário 2, notamos que as médias de tempo de visualização para o outro grupo já são diferentes: 81 segundos para o drama, 101 para a comédia e 126 para o futurista. Intuitivamente, se tivéssemos que apostar em qual desses cenários existe uma diferença de tempo médio de visualização, diríamos que no cenário 2 isso é mais provável, considerando a extrapolação desse número para a população. Na amostra, observamos que esse resultado ocorreu, indicando que os usuários que assistiram ao trailer futurista foram mais engajados do que os outros dois grupos.

Ao comparar os dois cenários, percebemos que um valor menor de F ocorreu quando as médias entre os grupos eram mais próximas, e um valor maior de F ocorreu quando as médias eram mais diferentes. Isso sugere que o F pode ser um bom indicador de diferença entre as médias, desde que tenhamos no numerador e no denominador um valor médio da soma de quadrados entre os grupos, garantindo uma comparação justa.

A soma de quadrados dentro do grupo seria maior se tivéssemos uma tabela com mais elementos, simplesmente por somarmos mais elementos. Isso significa que o F pode servir como base de comparação, desde que não haja uma soma de quadrados inflada apenas pela quantidade de elementos. Com uma comparação justa e uma razão de médias de variação, conseguimos identificar uma diferença ou não entre as médias dos grupos do teste.

Compreendendo essa lógica, esperamos que, em uma comparação justa, um F menor indique que as médias são mais próximas, enquanto um F maior sugira uma possível diferença entre as médias dos grupos. Com esse entendimento, podemos avançar e discutir mais sobre a estatística F.

Estatística F e distribuição

A estatística F mede a razão entre os quadrados médios entre grupos e dentro dos grupos. No exemplo anterior, consideramos apenas a soma. Para que essa comparação seja justa, a estatística F divide essa razão por uma referência ao número de elementos em cada soma, chamada de graus de liberdade da tabela. O grau de liberdade do numerador é o número de grupos menos 1, e o do denominador é o total de observações menos o número de grupos.

Essa razão de soma de quadrados, dividida por uma aproximação do número de elementos em cada soma, permite calcular a estatística F, que está relacionada à curva de distribuição F. Sob a hipótese de H₀, se as médias dos grupos forem iguais, não haverá diferença entre as médias dos três grupos, e a soma de quadrados médio terá uma distribuição F. A partir dessa distribuição, podemos mapear todos os possíveis valores de F e entender a probabilidade de ocorrência, dado que as médias são iguais. Isso nos permite testar a hipótese de igualdade de médias proposta pela ANOVA.

Premissas da ANOVA

As premissas da ANOVA funcionam como uma trava de segurança, um guia. Os resultados são válidos considerando a independência entre as observações, ou seja, cada cliente é único e o tempo de visualização de um cliente não influencia o de outro. Outra premissa é a normalidade dos resíduos, ou seja, a variabilidade dentro dos grupos deve seguir uma distribuição normal. Além disso, é necessário que as variações dentro dos grupos sejam semelhantes.

Assumindo que todas essas premissas são válidas no nosso estudo, temos a garantia de que os resultados do teste serão válidos e confiáveis. O resultado obtido a partir da amostra terá grande confiabilidade ao ser inferido e extrapolado para a população, sendo provável que se repita.

Próximos passos

Agora que encontramos uma metodologia adequada para o teste, vamos para o notebook, pegar a amostra do trailer e avaliar para entregar uma solução à demanda solicitada. Vamos avaliar os três grupos e verificar o resultado obtido para responder à demanda apresentada.

Sobre o curso Estatística avançada: comparação entre grupos

O curso Estatística avançada: comparação entre grupos possui 197 minutos de vídeos, em um total de 43 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Escolha a duração do seu plano e aproveite até 44% OFF

Conheça os Planos para Empresas