Alura > Cursos de Data Science > Cursos de Estatística > Conteúdos de Estatística > Primeiras aulas do curso Estatística: métodos e práticas para dados

Estatística: métodos e práticas para dados

O Papel da Estatística no Ecossistema de Dados - Apresentação

Apresentando a instrutora e o curso

Olá! Meu nome é Ana Clara Mioto, sou cientista de dados e irei acompanhar vocês nesta jornada pelos fundamentos da estatística para a ciência de dados.

Audiodescrição: Ana Clara é uma mulher branca, com cabelos longos e ondulados na cor castanho, com algumas mechas loiras. Ela veste uma camiseta azul marinho com a palavra "lua" escrita no meio. O fundo é em tom azulado, com aspecto rochoso.

Introduzindo a importância da estatística

Nos dias de hoje, ouvimos muito sobre big data (grandes volumes de dados), com informações sendo geradas a todo momento. Inclusive, esta conversa já é uma informação, um dado sendo gerado. Como podemos extrair valor desses dados? Como podemos trazer ordem a essas informações? Por meio da estatística.

A estatística é a arte de transformar dados brutos em insights (percepções) valiosos. Neste curso, passaremos por toda a base fundamental para utilizar a estatística e aplicá-la no universo da ciência de dados.

Explorando a estatística descritiva

Para isso, começaremos entendendo o papel da estatística no ecossistema de dados e na inteligência artificial, explorando como ela é entendida e aplicada nesse contexto. Em seguida, abordaremos a primeira frente da estatística: a estatística descritiva. Vamos entender medidas de tendência central, como média, moda, mediana e posição.

Como nossos dados estão posicionados em quartis? Como podemos entender os tipos de dados a serem utilizados? São textos? São números? E como podemos aplicar código para compreender essa teoria?

Analisando medidas de dispersão e forma

Na próxima parte, vamos abordar a segunda frente da estatística descritiva: medidas de dispersão e forma. Como nossos dados estão dispersos e distribuídos? Qual é o formato dessas informações? Como podemos extrair insights valiosos? Vamos gerar visualizações que nos auxiliem a descrever a situação atual dos nossos dados.

Descomplicando a probabilidade

A próxima frente é descomplicando a probabilidade. Probabilidade é uma área da matemática que pode parecer complexa, mas aqui vamos simplificá-la, trazendo exemplos práticos de como podemos prever as chances de certos eventos ocorrerem dentro dos nossos dados.

Encerrando com distribuições essenciais

Por fim, encerramos com as distribuições essenciais. Sabemos como está a relação entre nossas informações, qual é a média, moda, mediana, a tendência dos nossos dados, se há outliers, mas será que é uma distribuição normal, simétrica ou assimétrica? Vamos entender tudo isso nesta última aula e fazer a ponte para a segunda frente de estatística, que é a estatística inferencial.

Concluindo e avançando para a estatística inferencial

A partir do momento em que entendemos a situação atual dos nossos dados e os descrevemos, podemos passar para a etapa de inferir, prever o futuro com os nossos dados e gerar hipóteses, avançando para a próxima etapa da aplicação da estatística em ciência de dados.

Aguardamos vocês nas próximas aulas. Até logo!

O Papel da Estatística no Ecossistema de Dados - Estatística: O Alicerce da IA e de Data Science

Introduzindo a importância da estatística

Olá! Já nos perguntamos como a Netflix consegue recomendar aquele filme de Natal sensacional para assistirmos? Ou ainda, como grandes bancos como o Nubank, Itaú e Bradesco conseguem identificar rapidamente uma fraude no cartão de crédito? Além disso, como o Spotify consegue fazer uma retrospectiva do nosso ano ou criar aquela playlist perfeita para toda segunda-feira? A resposta é simples: estatística. Por trás dessas grandes empresas e negócios do dia a dia, a estatística atua como um arcabouço, uma base fundamental para todos os dados gerados diariamente.

Antes de começarmos, queremos apresentar a base deste curso e deixar uma indicação valiosa. Utilizaremos como referência a Estatística Básica, o livro de Wilton Bussabi e Pedro Morettin. Este livro aborda os fundamentos da estatística descritiva e inferencial, além de oferecer atividades e exercícios práticos de análise de dados, probabilidade e distribuição. Essa será a nossa referência ao longo do curso.

Explorando a relação entre estatística e machine learning

Dando continuidade, há um meme na internet que ilustra bem a relação entre estatística e Machine Learning (aprendizado de máquina). Ele mostra um jovem olhando para uma parede rachada, que representa a estatística. Ele decide colocar um quadro sobre a rachadura, simbolizando o Machine Learning. Esse meme se tornou famoso porque reflete a relação entre estatística, Machine Learning, ciência de dados e inteligência artificial, que ouvimos tanto no dia a dia. Por trás de ferramentas e algoritmos preditivos e generativos, estão funções estatísticas e matemáticas que organizam nossos dados.

Para aprofundarmos o entendimento, vamos começar com algumas definições. O que é estatística? Sabemos que ela está por trás de grandes ferramentas, mas o que significa na prática? Basicamente, a estatística é a ciência de coletar dados relevantes para organizar e colocar ordem neles. Após a coleta, organizamos os dados para entender como estão distribuídos e se são suficientes para os insights que queremos gerar.

Definindo estatística e suas aplicações

Em seguida, analisamos padrões ocultos e informações desorganizadas, avaliando o que temos hoje e o que queremos alcançar no futuro. A quarta etapa é interpretar para a tomada de decisão. A partir dessa ciência, interpretamos, entendemos e contamos uma história, apresentando insights e tomando ações, como criar recomendações de filmes ou playlists.

A estatística é um conjunto de métodos e processos quantitativos para medir fenômenos coletivos, como descrito no livro de Morettin. De forma resumida, é a arte de extrair significado do caos e da bagunça dos dados gerados. A conexão com Big Data se dá porque agora é possível gerar informações com volume, velocidade, agilidade e acessibilidade.

Explicando estatística descritiva

Entendemos o que é estatística e sua ciência, mas ela possui duas frentes. A primeira é a estatística descritiva. O que isso significa? Após coletar dados, precisamos entendê-los por meio da estatística descritiva, que descreve e traz características das informações. Utilizamos ferramentas como medidas de tendência central (média, mediana, moda) e medidas de dispersão (variância, desvio padrão, amplitude). Tornamos esses dados visuais para que qualquer pessoa do negócio possa entender a descrição dos dados, utilizando visualizações como histogramas, boxplots e gráficos de barra.

Vamos ver na prática como funciona essa descrição dos dados. Imagine que somos analistas de dados na Amazon, um grande e-commerce conhecido por todos. Recebemos um conjunto de dados de 100 mil pedidos e temos o objetivo de entender o ticket médio gasto nesses pedidos. Precisamos entender quais informações temos: quem comprou, qual produto, quantidade, valor gasto e formas de pagamento. Assim, chegamos a algumas informações importantes.

Analisando dados com estatística descritiva

Nós entendemos que, desses 100 mil pedidos, a nossa média é de R$ 120,50, a mediana é de R$ 98,00 e o desvio padrão é de R$ 85,30. O que queremos dizer com essa descrição? Primeiro, que o pedido mais comum dentro desses 100 mil pedidos, o ticket mais comum, é em torno de R$ 100,00. Percebemos isso com a descrição da mediana. Além disso, observamos que há uma variação muito alta, com um desvio elevado entre as compras. Por fim, notamos que a distribuição dos nossos dados, dos nossos 100 mil pedidos, não é simétrica, pois a média é bem maior que a mediana. Portanto, estamos lidando com dados assimétricos. Com essas três informações, já conseguimos descrever os nossos 100 mil pedidos. No entanto, estamos um pouco limitados.

Imaginemos se quisermos ver além desses 100 mil pedidos, entender os novos pedidos que serão feitos, ou compreender o ticket médio do próximo mês, da próxima semana, de amanhã. Não conseguimos fazer isso apenas com a estatística descritiva. É aí que entra a estatística inferencial, que basicamente nos permite fazer generalizações, previsões e inferências a partir desses novos dados. Organizamos, coletamos e entendemos os dados, e agora queremos obter novos entendimentos.

Introduzindo estatística inferencial

Por exemplo, queremos entender qual será o ticket médio do próximo mês. Queremos saber, a partir do comportamento desses 100 mil pedidos, como serão os próximos 100 mil pedidos. Se temos uma média comum de produtos como livros, será que esse é um comportamento comum? Será que há uma variação, com pessoas comprando mais de 10 livros por pedido? Será que isso é um padrão? Como faremos essa relação, essa correlação? É aí que entra a estatística inferencial.

Dentro da estatística inferencial, temos algumas ferramentas para nos ajudar a fazer essas previsões e generalizações. Temos os testes de hipótese, como o T-test, ANOVA, qui-quadrado, intervalos de confiança e correlação. Temos também a regressão e análise preditiva, entre outros. Aqui, já começamos a perceber algumas relações e palavras familiares com o mundo do machine learning (aprendizado de máquina). Palavras-chave como regressão e análise preditiva remetem ao famoso termo de machine learning.

Aplicando estatística em machine learning e ciência de dados

O machine learning é, basicamente, transformar essa estatística dos 100 mil pedidos em larga escala, em 1 milhão, 1 bilhão, abrangendo toda a nossa gama de clientes. Assim, usamos a estatística como base para transformar em algo maior, algo automatizado, ensinando a máquina a aprender esses padrões que identificamos em uma amostra e aplicá-los a toda uma população.

Além disso, temos o segundo entendimento: em que momento aplicamos a estatística? Não é apenas nos modelos, para entender o modelo de machine learning, mas sim durante todo o ciclo de um projeto de ciência de dados. Por exemplo, em um projeto de ciência de dados mais comum, começamos com o entendimento do problema, passamos para a coleta dos dados, processamento desses dados, seleção das variáveis relevantes, tratamento dessas informações, e depois seguimos para a criação da solução, a modelagem. Modelamos, avaliamos diferentes tipos de modelos, identificamos o que traz melhores resultados, avaliamos com a área de negócio para verificar se os resultados obtidos fazem sentido, apresentamos esses resultados e criamos ações a partir dos insights gerados. Essas previsões são geradas e, então, colocamos em produção, entregando para o negócio, para o nosso cliente, nosso usuário final.

Concluindo com exemplos práticos

Por exemplo, falamos da Netflix. Imaginemos que fizemos todo esse projeto de analisar quais são os filmes de Natal favoritos do nosso público e identificamos diferentes perfis. Há pessoas que assistem a um filme de Natal e depois a um filme de terror, um filme de Natal e uma série de doramas, romances coreanos. Outras gostam de ação antes de um filme de Natal. Identificamos diferentes perfis, entendemos o problema de negócio, que é recomendar filmes de Natal, criamos um modelo, entendemos os dados que tínhamos, tanto de inscrição quanto de comportamento do usuário final, desenvolvemos, apresentamos para a área de negócio e colocamos em produção.

Percebemos que a estatística, como vimos anteriormente, está presente em todo o ciclo de vida de ciência de dados. Desde o início do projeto, com o entendimento do problema e a formulação das perguntas corretas, já estamos aplicando estatística. Quando entendemos estatística, compreendemos o porquê por trás dos nossos modelos, conseguimos entender o que os dados significam, e isso nos diferencia no mercado de alguém que apenas executa códigos ou aplica alguma informação. Somos pessoas que resolvem problemas, trazem insights valiosos e geram valor a partir dos dados para o negócio.

Na próxima aula, vamos abordar a primeira parte desse processo, que é justamente fazer as perguntas eficazes. A partir das perguntas, começamos a aplicar nossa estatística descritiva. Esperamos vocês na próxima aula!

O Papel da Estatística no Ecossistema de Dados - O Ponto de Partida da Análise: Perguntas Eficazes

Iniciando a análise de dados com perguntas eficazes

Toda análise de dados bem-sucedida começa antes mesmo de abrirmos nosso conjunto de dados, coletarmos os dados ou escrevermos a primeira linha de código. Ela inicia, de fato, com uma pergunta bem elaborada, pois os dados, por si só, não conseguem resolver um problema. Precisamos entender o problema que queremos resolver e fazer perguntas que nos direcionem para a solução desse problema. No entanto, não é qualquer pergunta que nos direciona; precisamos fazer perguntas eficazes para criar uma direção clara de como vamos explorar e analisar esses dados. Sem essa direção, podemos criar interpretações equivocadas ou até análises irrelevantes para o nosso problema.

Nesta aula, veremos como fazer as perguntas certas. Este é o ponto inicial, o ponto de partida na nossa análise, para que ela seja mais focada e eficiente. Antes mesmo de fazermos essas perguntas, precisamos entender o que é uma boa pergunta e o que é uma pergunta ruim. Vamos considerar o seguinte cenário: imagine que somos cientistas de dados dentro de uma empresa de e-commerce. Usamos o exemplo da Amazon na aula anterior. Agora, suponhamos que trabalhamos na Magazine Luiza, por exemplo, e precisamos responder a uma pergunta feita pelo nosso chefe: "Como estão as vendas?" Concordamos que a pergunta "como estão as vendas" não é muito clara em relação ao período de tempo que queremos saber? De hoje, de ontem, desta semana, do mês que vem? De qual produto? Qual segmento desse produto queremos saber? Há algum grupo específico de clientes sobre o qual queremos saber as vendas? Essa é uma pergunta muito ampla e, portanto, uma pergunta ruim. Temos muitas direções para seguir e muitas possibilidades, o que nos deixa perdidos e sem um caminho eficaz para solucionar o problema.

Refinando perguntas para uma análise direcionada

Como podemos melhorar essa pergunta? Uma boa pergunta define o objetivo, o escopo e até mesmo quais técnicas podemos aplicar para alcançar o resultado desejado. Por exemplo, uma boa pergunta para a questão de como estão as vendas seria: "Qual a taxa de conversão média por categoria de produto nos últimos seis meses? E como isso se compara com o mercado?" Essa é uma boa pergunta. Temos a taxa de conversão média e sabemos como estão indo as vendas por categoria de produto nos últimos seis meses. Queremos entender o comportamento mais recente das nossas vendas e como isso está em relação ao mercado. Como o mercado está em relação a essas categorias de produtos? Eletrodomésticos ou eletrônicos, como nossa empresa está em relação às vendas no mercado? Estamos vendendo mais? Estamos ficando para trás? Estamos mantendo nossa posição? Estamos atingindo nossa meta do trimestre ou do mês de vendas? Aqui, começamos a definir pontos importantes para que a pergunta tenha uma direção. Sem esse refinamento, teremos um amontoado de dados que não nos leva a lugar nenhum. Teremos infinitas direções para seguir, várias perguntas surgirão, e acabaremos perdendo o foco inicial.

A construção de uma boa pergunta não para apenas no início, quando recebemos o problema. Precisamos continuar refinando e nos questionando até termos clareza. Precisamos de uma pergunta bem definida, um caminho claro e bem estabelecido com o time de negócios ou com o gerente que solicitou a demanda. Tudo deve estar muito claro e bem alinhado às expectativas. A partir daí, podemos questionar ao longo do projeto: "Esse resultado faz sentido? Está muito superficial? Consigo encontrar alternativas para esse produto ou para esses meses? Consigo separar por perfil de cliente ou por perfil de produto dentro da nossa categoria? Temos eletrodomésticos, mas também temos fogões, micro-ondas, geladeiras. Conseguimos criar perfis?" Vamos refinando e sempre questionando nossos dados até atingirmos nosso objetivo.

Evitando armadilhas em perguntas de análise de dados

Devemos ter um ponto de atenção muito grande. Existem certos tipos de perguntas que, conforme desenvolvemos o projeto e interrogamos nossos dados, nos levam a armadilhas ou a erros comuns. Por exemplo, perguntas tendenciosas a uma conclusão. Se quisermos ver a taxa de conversão média por categoria de produto nos últimos seis meses e como isso se compara ao mercado, mas fizermos uma pergunta sobre uma região específica, como a taxa de conversão média dentro da região de Santos ou Guarujá, podemos nos questionar: "Perfeito, dentro de Santos e Guarujá, os coolers são os produtos que mais vendem, não são?" Estamos fazendo uma pergunta tendenciosa, pois já temos o conhecimento prévio de que Santos e Guarujá são regiões de praia. Estamos direcionando a resposta com base nesse conhecimento prévio, quase afirmando que os coolers são os produtos com maior conversão. Isso é uma armadilha que devemos evitar ao construir perguntas e interrogar nossos dados.

Outro tipo de pergunta perigosa são as perguntas fechadas, que respondem com sim ou não. Por exemplo, dentro da região de Santos, temos vendas de produtos eletrônicos, sim ou não? Os clientes estão satisfeitos? Nos últimos seis meses, os clientes estão satisfeitos, sim ou não? Essas perguntas fechadas podem limitar nosso entendimento do porquê e do como, muitas vezes restringindo nossos insights. Devemos ter cuidado com perguntas de sim ou não, perguntas binárias, hipóteses binárias. Embora não sejam excluídas, pois muitas vezes são necessárias para propósitos específicos, quando estamos explorando e analisando nossos dados de forma inicial, elas podem ser pouco reveladoras ou trazer poucos entendimentos.

Outro tipo de pergunta que pode ser uma armadilha são as perguntas vagas, como vimos no exemplo de uma pergunta ruim: "Como estão as vendas?" Sabemos que falta especificidade e contexto. Ela não dá uma direção clara do que queremos investigar, onde queremos chegar, qual o tempo, qual o produto. Comparado a quê vamos dizer que nossas vendas estão indo bem ou mal? Esse é outro tipo de pergunta que devemos evitar.

Aplicando a metodologia SMART para perguntas eficazes

Diante dessas armadilhas e orientações sobre perguntas ruins ou boas, podemos seguir alguns passos ou uma metodologia comum para nos orientar na criação de perguntas eficazes. Uma metodologia muito conhecida na ciência de dados e na análise de dados é a metodologia SMART, amplamente utilizada para construir metas, indicadores e perguntas. Ela também é aplicável a esse cenário. O que significa a palavra SMART? Significa específico, mensurável, acionável ou atingível, realista e temporal.

Primeiro, precisamos criar perguntas específicas, focando em um aspecto bem definido do problema. Se recebemos a pergunta "como estão as vendas", devemos refiná-la, evitando ambiguidades. A pergunta precisa ser simples e significativa. No primeiro passo, devemos pegar essa pergunta e começar a afunilar, evitando generalizações. Estamos começando a criar perguntas melhores.

O próximo passo é criar perguntas mensuráveis. Se recebemos a pergunta "como estão as vendas", podemos torná-la específica: "Como estão as vendas por categoria de produto mensurável nos últimos seis meses?" Outra pergunta que podemos criar a partir de "como estão as vendas" é: "Qual é a taxa de clientes que estamos perdendo nas vendas de celulares?" Essa pergunta é específica e mensurável. Podemos dizer um número exato, como a cada 100 clientes, qual é a taxa de clientes que estamos perdendo ao tentar vender celulares? Trouxemos uma taxa mensurável, uma quantificação. Podemos incluir um tempo, como nos últimos três meses ou na última semana, qual é a taxa de clientes que perdemos em vendas de celulares, comparado ao ano passado. Esse é um exemplo muito utilizado, inclusive.

Tornando perguntas acionáveis e realistas

Lembramos que nossas perguntas não podem ser amplas, filosóficas ou muito genéricas. Por exemplo, "Por que nossos celulares não venderam?" não é uma pergunta que podemos medir ou responder de forma objetiva. Essa é a segunda parte de criar nossa pergunta eficaz, utilizando a metodologia SMART. O terceiro passo é torná-la acionável, ou seja, possível, atingível e orientada a uma ação.

Por exemplo, qual é a taxa de clientes que estamos perdendo na venda de celulares nos últimos três meses? E quais caminhos podemos utilizar para modificar essa taxa? Quais são os caminhos de mudança? Que ações podemos tomar a partir desse entendimento? Sabemos que estamos perdendo clientes na venda de celulares dos últimos três meses. Quais características fazem com que percamos essas vendas? Quais comportamentos e ações foram tomadas no atendimento que levaram a essa taxa de conversão negativa? Qual ação podemos tomar no atendimento direto com o cliente? Ou alguma característica no nosso site, algum botão, alguma campanha que poderíamos fazer para reduzir essa taxa de perda de venda de celulares em 10%?

Estamos criando e encorajando mudanças, formas de entender o problema e até refinar esse problema, direcionando uma ação para solucioná-lo. Compreendemos que precisamos procurar nos nossos dados comportamentos que nos levam a perder clientes na venda de celulares. Nossas perguntas estão direcionando nossa análise e exploração dos dados.

A próxima etapa é ser realista. Não devemos pensar em um objetivo surreal ou maior do que poderia ser. Precisamos de um objetivo real, um problema real em questão. Estamos enfrentando churn de clientes na venda de celulares. O que faremos? Oferecer uma promoção absurda de 50% em todos os celulares? Isso pode reduzir a taxa, mas quais são as consequências? Não é realista. Precisamos de perguntas que movam o ponteiro de tomada de decisão, pois perguntas irrelevantes não ajudam a resolver o problema inicial.

Comunicando-se com o time de negócios e definindo prazos

É crucial manter uma comunicação aberta com o time de negócios e os stakeholders, que são as pessoas que fizeram nossa pergunta. Precisamos saber como estão as vendas e por que estamos tendo churn de clientes nos produtos de celulares. O time que solicitou essa demanda deve ter um canal aberto de comunicação, tornando nossas análises realistas e direcionando perguntas e análises que façam sentido para o problema.

Por fim, precisamos definir um período, um momento, deixando claro esse tempo comparável. Isso nos ajuda a entender se, por exemplo, uma campanha X lançada este ano teve relação direta com a taxa de churn na venda de celulares em comparação com a campanha Y do ano passado. Quais foram os clientes impactados em cada campanha? Quais regiões e comportamentos esses clientes tiveram, seja no atendimento físico ou na nossa página de e-commerce? O tempo nos ajuda a ter cenários comparativos e a entender o que pode ter sido feito de diferente, levando ao resultado que estamos investigando.

Resumindo a construção de perguntas eficazes

De forma resumida, como podemos construir boas perguntas que nos direcionem à solução do nosso problema? Primeiro, definimos o problema: estamos com uma alta taxa de churn nos produtos de celulares e precisamos entender como contornar e reduzir essa taxa. O time quer lucrar mais ou aumentar a taxa de lucro, reduzindo as perdas com a venda de celulares. Definimos nosso problema e o deixamos claro e alinhado com o time de negócios.

O segundo passo é alinhar e entender as expectativas. Sabemos que precisamos entender o churn dos clientes na venda de celulares e temos dados para isso. Começamos a fazer perguntas que direcionam à solução do problema e outras para complementar nossas perguntas eficazes. Temos dados sobre as vendas de celulares dos últimos dois anos e queremos compará-los com este ano e o ano passado. Temos dados sobre campanhas e o comportamento dos clientes nas campanhas passadas e atuais. Se não tivermos dados de campanhas passadas, precisamos alinhar as expectativas do negócio e mudar o direcionamento, mantendo sempre um canal aberto com o negócio.

Devemos manter o foco no problema real, mesmo que surjam muitas perguntas, dados e ideias. O foco é o churn de clientes na venda de celulares. Após analisar, trazer perguntas e dados, validamos com o time de negócios para garantir que não perdemos o foco no problema real.

Por fim, é importante ver todo o cenário. Às vezes, precisamos dar um passo para trás para avançar. Se não encontrarmos dados específicos, podemos verificar se estão em outro lugar, como junto com eletrônicos. Refinamos o problema, conversamos com o negócio, reavaliamos as expectativas e continuamos aplicando a metodologia SMART.

A estatística nos acompanha desde o início da criação das perguntas. Falamos da taxa de churn e de conversão, e precisamos transformar essas perguntas em cálculos matemáticos, aplicando estatística e código. Estamos pavimentando o caminho para aplicar e direcionar melhor nossa ciência, ajudando a identificar as melhores técnicas e visualizações para esses casos. Vamos explorar melhor os tipos de dados e como usar técnicas em código para torná-los mais visuais e reais, começando a entregar resultados para o time de negócios. Nos encontramos no próximo vídeo.

Sobre o curso Estatística: métodos e práticas para dados

O curso Estatística: métodos e práticas para dados possui 266 minutos de vídeos, em um total de 54 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas