Alura > Cursos de Data Science > Cursos de Data Science > Conteúdos de Data Science > Primeiras aulas do curso Data Analysis: previsões com Google Sheets

Data Analysis: previsões com Google Sheets

Histograma - Apresentação

Bem-vindos ao nosso curso de Data Analysis. Esse curso vai se aprofundar em muitos conceitos muito importantes dentro da Data Analysis e da Data Science também. Então, com certeza o que você vai aprender nesse curso, você vai vivenciar no seu dia a dia.

Nesse curso vamos iniciar estudando os conceitos de freqüência. Então, vamos estudar sobre a frequência relativa, a frequência absoluta, como apresentamos esses conceitos, como calculamos. Também vamos aprender como mostrar visualmente os conceitos da frequência através do histograma.

Então, qual a importância do histograma que é muito utilizado em nossas análises pela vida futura. Quais são os tipos de histogramas que temos: o histograma simétrico, distorcido à direita, distorcida à esquerda ou cauda direita, cauda esquerda, bimodal, multimodal, platô, diversos tipos.

Também faremos análises utilizando o histograma. Então, vamos fazer algumas análises relacionando o tempo, velocidade e vamos ver como podemos utilizar o histograma para enriquecer as nossas análises e tirar conclusões em sites bem interessantes também.

Também vamos aprender um conceito extremamente importante, que é a correlação. Nesse curso, especialmente, vamos aprender sobre a correlação de Pearson, mas também vamos estudar sobre correlação direta e indireta. Justamente sobre essa classificação de Pearson, quando a correlação é fraca, quando ela é forte, como calculamos essa correlação. Vamos aprender também, relembrar na verdade, conceitos da equação da reta para poder utilizar na regressão linear.

E todos esses conceitos, vamos utilizar na prática, aqui no Google Sheets teremos uma série de dados para relacionar, vamos ver se existe uma correlação de renda familiar com o gasto com livros por ano. O gráfico já está aqui na frente, mas vamos calcular quanto essa correlação, se a correlação existe, se ela é forte, se ela é fraca, de quanto exatamente ela é.

E vamos fechar calculando a regressão linear, a função de regressão linear. Vamos ver como funciona isso aqui no gráfico, quais são as fórmulas que o Google Sheets disponibiliza e como podemos fazer isso de forma automática. Então, a regressão linear é uma ferramenta extremamente poderosa e importante dentro da análise de dados.

Vamos também nos aprofundar no conceito de sazonalidade, que é um conceito extremamente importante. Muitas pessoas passam batido nesse conceito ou acabam descobrindo esse conceito na prática, no dia a dia, e isso faz com que elas percam muito tempo e dinheiro.

Então, vamos estudar, e dentro da sazonalidade, também faremos diversas análises. Vamos começar estudando aqui, vamos ter um gráfico, nem sempre é tão intuitivo identificar a sazonalidade. Vamos identificar usando uma técnica para conseguir quebrar os períodos e enxergar a sazonalidade de forma mais clara.

Também vamos estudar qual é a diferença da sazonalidade aditiva para a sazonalidade multiplicativa e vamos começar a criar alguns modelos de predição dentro da sazonalidade. Então, vou ter os meus dados que vão apresentar uma sazonalidade, vamos criar um modelo que vai contemplar esses dados e vamos criar um modelo de previsão também.

Também vamos trabalhar com dois conceitos mesclados, que é a sazonalidade com tendência, quando não tem um só movimento de sazonalidade, mas quando esse movimento está crescendo também. Vamos criar um modelo aqui que vai cobrir esses dois conceitos e também vamos estudar e criar modelos quando o intervalo de sazonalidade for par.

Têm muitos conceitos por trás, intervalo de sazonalidade, índice de sazonalidade individual, índice de sazonalidade de intervalo, o modelo preditivo.Tem bastante conteúdo no nosso curso para estudarmos. E por fim, vamos entender a importância dos dados, porque caso você tenha dados enviesados ou de baixa qualidade, temos essa máxima dentro da estatística: Entra lixo, sai lixo.

Você pode ter as melhores técnicas, como você vai aprender aqui no curso, mas se você não tiver dados bons para você fazer as análises, a sua análise vai ser extremamente prejudicada.

Tem esse desenho do Caldeirão, você vai entender no curso o porquê, mas vamos entender como conseguimos extrair uma parte dos dados que vai me representar o todo e com aquelas partes, eu consigo fazer técnicas tão precisas quanto se eu estivesse trabalhando com aquela infinidade de dados.

[04:24]Também vamos aprender que alguns problemas típicos dos dados, alguns vieses, para nas nossas análises, conseguirmos farejar isso de longe e evitar esses problemas, para enriquecer bastante isso.

[04:38]Façam todas as atividades, os exercícios, coloquem a mão na massa mesmo, na prática, eu tenho certeza que você vai enriquecer muito seu conhecimento durante esse curso. Nos vemos no próximo vídeo.

Histograma - Frequência

Então, vamos lá. O chefe do Jorge pediu para ele fazer o cálculo da frequência relativa do número de livros vendidos, de estatística, ao longo de 15 semanas. Como ele pode fazer esse cálculo? Ou melhor, o que será que significa esse termo, “frequência”? A frequência é o número de vezes que algo acontece.

A partir de agora, para usarmos uma linguagem técnica, principalmente no mundo da estatística e no mundo da análise, vamos usar o termo frequência. Mas, basicamente, temos dois tipos de frequência. Temos a frequência absoluta e a frequência relativa.

O chefe do Jorge quer que ele calcule para ele a frequência relativa, mas antes disso, vamos entender o que é a frequência absoluta. Frequência absoluta é simplesmente o número puro, é o número de vezes que algo vai acontecer. Por isso, muitas vezes, essa frequência absoluta também é conhecida como frequência simples.

Então, vamos supor, temos aqui a tabela com os números de livros vendidos ao longo das 15 semanas. Aqui nessa coluna eu tenho as semanas e, aqui na outra coluna, eu tenho os livros.

SemanasLivros EstatísticaMatemáticaPortuguêsGeografia
1451319
2771116
3681215
41151511
5713179
61225148
71414167
811151713
92010138
10198189
111871715
1221191617
132081119
1419201011
152221197

Como eu quero saber dos livros de estatística, eu quero a frequência absoluta, vou até criar aqui um termo, eu vou colocar em negrito para diferenciar um pouco. Vou escrever aqui, dar dois cliques, “Frequência Abs”, de absoluto.

Se eu quero saber a frequência absoluta dos livros de estatística, é muito simples, eu posso usar a função soma. Eu posso vir aqui na célula e digitar, ‘SOMA’, abro parênteses. E vou somar o que? Os livros de estatística.

Eu quero saber simplesmente o número de livros vendidos aqui, essa é a minha frequência absoluta, é o número. E aqui eu acho o resultado. Então, a frequência absoluta dos livros de estatística vendidos, ao longo das 15 semanas, é igual a 211.

Já a frequência relativa é sempre comparada a um total, inclusive esse cálculo nos aproxima mais da média, porque estou comparando, na verdade, duas informações. Eu não quero saber simplesmente um número absoluto, eu quero saber o número em relação ao total.

[02:02]Geralmente é dado em porcentagem. Não tem unidade, mas como estamos comparando duas unidades iguais, eu posso usar a porcentagem que vai me dar uma noção muito melhor do todo. Então, vamos ver aqui na nossa tabela se eu quiser calcular agora a frequência relativa.

[02:18]Eu disse que para calcularmos a frequência relativa, precisamos ter como parâmetro o total. Vou procurar o “Negrito” aqui, no centro superior da tela. Vamos entender primeiro qual é o total de eventos que eu tenho. O total são todos os livros que eu estou analisando aqui na tabela, vendidos nesse mesmo período de 15 dias.

Então, eu também vou usar a função de ‘SOMA’, porém, em relação ao total. Vou selecionar todos os meus dados na tabela, fecho o parêntesis e aperto “Enter” no teclado. Meu total chegou a 799 livros vendidos nesse período.

[02:53]Para descobrir a frequência relativa, dá um duplo clique aqui no negrito, no centro superior da tela e digitar ‘Frequência Relativa’. Para encontrar a frequência relativa, qual é o cálculo que eu vou fazer? Colocar o igual para a célula receber o cálculo, eu vou dividir a frequência absoluta pelo todo, pelo total de eventos que eu tenho, igual. E aqui eu encontro a frequência relativa.

[03:29]Lembra que eu disse que é muito mais comum usarmos a porcentagem para representar? Fica um número mais amigável.

[03:35]Para transformar esse dado aqui em porcentagem eu posso vir aqui em cima, vamos ver se damos um zoom aqui na tela. Então, aqui em cima, do lado superior esquerdo, eu tenho, como o formato está em porcentagem, dou um clique, volto e pronto, está aqui o meu resultado: 26,41%. Essa é a minha frequência relativa.

frequência AbsTotalFrequência Relativa
21179926,41%

[03:53]Quer dizer que, no todo, a minha parte vendida de livros de estatística foi igual a 26 vírgula 41 por cento.

Histograma - Histograma

Agora o Jorge precisa representar graficamente os dados que ele obteve da venda dos livros de estatística ao longo das semanas. Pesquisando, ele descobriu que a melhor forma de representar graficamente esses dados é através de um histograma.

Mas por que vamos usar o histograma para esse conjunto de dados que obtivemos da frequência? E quando será que é a melhor ocasião para que eu use o histograma? O Histograma, na verdade, é muito conhecido e muito utilizado dentro do mundo das análises. Você provavelmente já teve contato com esse tipo de gráfico

Vamos detalhar agora um pouco melhor, vamos entender como é que funciona. O primeiro objetivo de um gráfico, e assim também do histograma, é resumir os dados de forma visual, porque nosso cérebro não é preparado para identificar de forma automática ou intuitiva um grande conjunto de dados.

Então, eu posso organizar esses dados através de um histograma. Sempre que você não tiver muita certeza do que fazer com um grande conjunto de medidas, especialmente com os de frequência, eu posso utilizar do histograma.

Com o histograma conseguimos alcançar alguns objetivos. Primeiro como eu disse, resumir graficamente um extenso conjunto de dados, segundo, eu consigo comparar processos específicos da minha empresa e também limites. Vamos supor que estou trabalhando para a empresa que produz algum tipo de material e ela tem um limite.

Vamos supor que meu limite esteja aqui nesse ponto 15. É claro que esse ponto 15 pode estar na ordem de grandeza que eu quiser, pode ser de milhares. Então, vamos supor que ela produz certo equipamento, certo componente e o limite esteja em 15 mil.

Imagem com um histograma de um gráfico de barras verticais com eixo horizontal "x" graduado de menos quatro a mais quatro a cada dois pontos, e eixo vertical "count" graduado de zero a vinte e cinco a cada cinco pontos. O gráfico com simetria central possui dez barras que crescem a partir de menos um do eixo "x" e zero do vertical, vão até um um pico central próximo de zero do eixo horizontal e vinte e três do eixo vertical, e depois decrescem os valores até o zero do eixo vertical e três do horizontal.

Eu consigo observar onde o meu limite está acontecendo, onde eu ultrapasso, que nesse caso vou precisar readequar, e onde está abaixo. Então, eu consigo identificar claramente esse tipo de limite. E claro, também consigo comunicar, de forma visual, à toda a minha equipe, especialmente quando as equipes são muito grandes.

[01:59] Então, é muito melhor, ao invés de passar tabelas e tabelas para a equipe, que eu resuma esses dados e apresente um histograma, porque o histograma vira uma ferramenta de comunicação muito poderosa.

Os dados de indicador do histograma podem ser de alguns tipos, por exemplo, podem ser para classificar. Então, consigo classificar no histograma se as peças, por exemplo, são defeituosas ou não, consigo classificar o número de acidentes que eu tenho, no mês, na minha empresa ou não, se o cliente está satisfeito ou não.

Eu consigo fazer através do histograma uma espécie de classificação, consigo enxergar visualmente aqui o número de eventos que estão acontecendo do que quero classificar. Também posso fazer uma espécie de contagem claro, por exemplo, “o número de riscos numa peça”, monto o histograma e vou identificar aquilo de forma visual, “o número de acidentes nos meses”, como eu tinha dito, você também pode usar para contar.

E claro, posso usar também para dados contínuos. Aqui embaixo, no meu eixo X, eu vou ter aqui um intervalo. E dentro desse intervalo estou contemplando números inteiros, mas, por exemplo, eu tenho, dentro da minha observação, de 40 a 45, aqui eu estou falando sobre algumas substâncias presentes no sangue ou em alguma outra substância qualquer.

Mas aqui eu tenho do 40 ao 45, do 45 ao 50, então eu estou indo de 5 e 5 e contemplo o número de observações que eu tenho dentro desse intervalo. O histograma nos permite também identificar alguns pontos muito interessantes.

Contínuos

Imagem de um gráfico de barras verticais com duas cores intercaladas, com eixo horizontal "HDL (mg/dL)" graduado de quarenta até setenta a cada cinco pontos, e eixo vertical "frequência" graduado de zero até seis a cada um ponto. O gráfico com assimetria à esquerda possui seis barras que crescem a partir de quarenta do eixo "x" e zero do vertical, vão até um um pico central próximo entre cinquenta e cinquenta e cinco do eixo horizontal, e vai até o valor seis do eixo vertical, e depois decrescem os valores até o zero do eixo vertical e setenta do horizontal. No canto supeior direito, está a legenda "intervalo: 5 mg/dL" e "6 classes".

Primeiro, eu consigo identificar a centralidade. Então, está aqui a minha distribuição de frequências, e através do histograma eu consigo identificar onde está o centro dessa distribuição e onde se concentra o maior número de observações. Na tela, conseguimos ver que o maior número de observações está aqui.

Vamos esquecer um pouco do que estou falando, porque eu consigo encaixar o histograma em qualquer tipo de análise. Mas, olhando para o histograma, eu nem sei do que se trata, porém, já identifico que o maior número de observações do que eu estou falando está aqui, está centralizado aqui.

Eu também consigo identificar a minha amplitude, ou seja, qual é o intervalo de abrangência do que eu estou analisando. Ele começa aqui, do lado esquerdo do histograma, e vai até aqui, do lado direito do histograma. Então, eu já identifico rapidamente qual é todo o meu intervalo, do que eu estou tratando no histograma.

Também consigo identificar se existe uma simetria dentro do meu processo. Como assim? Vamos supor que eu dividisse esse histograma na metade e eu tenho o meu lado esquerdo e o meu lado direito. Se houvesse uma simetria, teria um equilíbrio, estaria dividindo exatamente no meio, porém, observamos que nesse nosso exemplo não tem uma simetria.

Se dividirmos o histograma no meio, observamos que a maior concentração de observações está aqui do meu lado esquerdo e do meu lado direito tem uma distribuição muito menor. Então, isso já me auxilia muito, faz com que eu ganhe muito tempo dentro das minhas análises.

Histogram of x

Imagem de um gráfico de barras verticais com eixo horizontal "x" graduado de zero até três a cada meio ponto, e eixo vertical "density" graduado de zero até um a cada zero ponto dois pontos. O gráfico com assimetria à esquerda possui quatorze barras que crescem bruscamente a partir da origem do gráfico, vão até um um pico entre os valores meio e um ponto do eixo "x" e um do eixo "y", e depois decrescem  os valores mais sutilmente até o zero do eixo vertical e três do horizontal. Sobreposta às barras, há uma curva azul que acompanha os topos dos valores das barras. Há também duas retas verticais de cores diferentes que partem do centro entre meio e um ponto do eixo horizontal e atravessam toda a extensão vertical do gráfico sobrepostas à barra de pico do gráfico, acompanhando-a.

O que é um histograma? Histograma basicamente é um gráfico de barras que vai demonstrar a distribuição das frequências dos eventos, do que está acontecendo e do que eu estou fazendo na minha análise.

É muito comum as pessoas confundirem um histograma com um gráfico de barras ou de colunas. Então, eu trouxe um exemplo de gráfico de colunas, que já aprendemos que estão na posição vertical, e aqui tem um gráfico de barras.

Imagem com dois gráficos lado a lado para demonstrar as características do gráfico de barras, em que um deles possui as barras na posição vertical e outras na horizontal, mas cada barra representa um elemento próprio em relação ao eixo oposto, e possuem um espaçamento entre elas.

Muitos autores defendem que para que as pessoas não confundam, quando formos fazer um gráfico de colunas, criarmos um espaço entre as colunas para não confundir com o histograma.

Qual a diferença, basicamente, entre eles? No histograma, vou focar quando eu tiver que fazer uma representação gráfica do número de frequência do que está acontecendo comigo e, especificamente, não vou ter intervalo, porque como embaixo estou relacionando os intervalos, vou por exemplo de 0 a 5, de 5 a 10, eu não pulo de 0 a 5 e depois eu coloco de 8 a 12. O histograma tem uma continuidade, como vimos.

E no meu eixo vertical, vou demonstrar a frequência, porque visualmente eu bato o olho aqui e já identifico onde está acontecendo a minha maior frequência.

Sobre o curso Data Analysis: previsões com Google Sheets

O curso Data Analysis: previsões com Google Sheets possui 169 minutos de vídeos, em um total de 48 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Plus

De
R$ 1.800
12X
R$109
à vista R$1.308
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

Matricule-se

Pro

De
R$ 2.400
12X
R$149
à vista R$1.788
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Luri, a inteligência artificial da Alura

    Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com Luri até 100 mensagens por semana.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas