Primeiras aulas do curso Regressão Linear: Testando Relações e Prevendo Resultados

Regressão Linear: Testando Relações e Prevendo Resultados

Análises preliminares - Introdução

Olá, boas-vindas!

Sou Rodrigo e serei seu instrutor neste curso de Data Science, em que aprenderemos uma técnica de machine learning conhecida por Regressão Linear. Trata-se de um modelo de aprendizagem do tipo supervisionado.

Criamos um notebook que nos guiará como um roteiro, e nós iremos preenchendo as células ao longo do curso. Aprenderemos a fazer análises preliminares dos dados, análises gráficas, utilizaremos técnicas de data sciente como separação de dados e conjunto de treino e de teste. Criaremos, ainda, algumas métricas para comparar os modelos. Em seguida, iremos interpretar os resultados dos modelos e realizar previsões a partir dos dados que obtemos.

Espero que você aproveite bastante!

Vamos lá?

Análises preliminares - Conhecendo o dataset

Daremos inicio ao nosso projeto utilizando a regressão linear. O objetivo desta primeira aula é nos familiarizarmos com o dataset que utilizaremos ao longo do curso. É importante que conheçamos a estrutura de pastas que criamos, e você deve fazer o download de todas elas que estão disponíveis no tópico "Projeto Inicial do Treinamento".

A documento do projeto foi armazenado em "C:\Usuários\Alura\data-science". Em "data-science" encontraremos "reg-linear", que armazena as patas criadas do projeto. Na pasta "Dados" teremos o dataset Consumo_cerveja.csv. Ainda em "data-science" teremos a pasta "projeto", em que encontraremos o notebook Regressão Linear.ipynb.

Na pasta "data-science", teremos o arquivo "StartJupyter". Clicaremos sobre ele para iniciar a ferramenta. O Jupyter já será executado na pasta que estamos trabalhando. Por fim, clicaremos sobre "Projeto" e abriremos o notebook Regressão Linear.

Ele estará inteiramente documentado, apenas as células vazias serão preenchidas, e já contém todas as aulas que desenvolveremos ao longo do treinamento. Começaremos importando as bibliotecas básicas.

Caso você já tenha feito o curso de Pandas, encontrará algumas similaridades. Importaremos matplotlib.pyplot com o "apelido" as plt. Depois, inseriremos a function %matplotlib inline. Alguns sistemas precisam dessa configuração para que o Jupyter consiga imprimir os gráficos. Em seguida, importaremos o Pandas e o Numpy.

No notebook, temos um espaço para bibliotecas opcionais. Acessaremos o portal Kaggle, onde encontraremos uma grande quantidade de datasets voltados para data science.

Para este projeto faremos algo bem simples, com o tema consumo de cerveja. Teremos uma breve descrição do arquivo, e também uma distribuição de frequência de cada variável.

O objetivo do nosso projeto é estimar um modelo de machine usando a técnica de regressão linear, e averiguar os impactos das variações disponibilizadas no dataset, sobre o consumo de cerveja. Tentaremos estimar o consumo utilizando a regressão utilizando as variáveis apresentadas. Vamos conhecer cada uma delas:

data = dia de coleta. temp_media = média da temperatura ambiente registrada temp_min = temperatura mínima ambiente registrada temp_max = temperatura máxima ambiente registrada chuva = Precipitação(mm) fds= Final de Semana (1= Sim, 0=Não) consumo= Consumo de Cerveja (litros)

Temos uma questão: os dados do Kaggle que iremos utilizar faz uso da , ao invés do .: por exemplo 27,3. De volta ao notebook Regressão Linear, na célula de "Leitura dos dados", importaremos o arquivo o seguinte arquivo - lembrando de especificar o separador:

dados = pd.read_csv('../Dados/Consumo_cerveja.csv', sep=';')

Assim feito, basta escrever dados na próxima célula para gerarmos a visualização da tabela, composta pelas variáveis que já conhecemos e seus respectivos valores. Verificaremos o tamanho do nosso dataset ao escrever:

dados.shape

Teremos como resultado (365,7), isto é, uma dupla numérica, em que o primeiro valor corresponde ao número de linhas de registro no dataset e o segundo ao número de variáveis.

Análises preliminares - Análises preliminares

O objetivo dessa aula é estudar a relação entre as variáveis do dataset que estamos trabalhando, além de investigar os comportamentos das variáveis com algumas estatísticas descritivas. Lembrando que caso você tenha finalizado o dataset, ele deve ser executado novamente para que os dados sejam inseridos na memória novamente.

Criaremos inicialmente uma tabela de estatísticas descritivas dos dados do dataset. Escreveremos:

dados.describe()

E teremos como resposta algumas estatísticas de cada uma das variáveis que estão do dataset: média aritmética, desvio padrão, valor mínimo, 25% ou primeiro quartil dos dados, 50%, 75% e valor máximo. Iremos arredondar os dados da tabela utilizando o método round():

dados.describe().round(2)

Note que em consumo - a variável que estamos interessados em estimar - possui como valor mínimo 14343.00, e o valor máximo está em torno de 37937.00. Vejamos que se trata de um limite razoável, então não temos motivo para acreditar que haja algum problema neste ponto. O mesmo ocorre para outras variáveis do dataset.

Feita essa análise mínima, podemos passar para a matriz de correlação, em que buscaremos identificar as relações entre lineares entre variáveis. Trata-se de uma medida de associação linear que está entre -1 e 1. Quando uma variável está "subindo", outra está "caindo", este é um exemplo de associação negativa. Já a positiva seria justamente o contrário, uma variável "sobe" e a outra acompanha essa ascendência.

Para realizar essa medição, usaremos a matriz. Para tanto, escreveremos:

dados.corr().round(4)

Veremos que a correlação com de consumo com a temperatura média é de 0.5746, já para temperatura mínima teremos 0.3925. Já em temperatura máxima temos uma correlação alta de 0.6427. Esses valores revelam que a variável possui uma relação linear boa com o consumo.

Ao observarmos a variável chuva, temos o valor negativo -0.1938. O que podemos interpretar deste dado? Quando chove, a tendência é que o consumo de cerveja diminua, por isso o valor negativo. Já em no caso de fds, verificamos que o consumo se eleva.

Em processo de regressão linear, teremos uma variável dependente (Y), e as variáveis auxiliares que explicarão esse consumo (X). No caso que acabamos de analisar, as variáveis temp_max e chuva podem ser classificadas como X. Um motivo para não inserirmos as outras variáveis no eixo X é porque, ao observarmos a temperatura média e a temperatura mínima, temos uma variação altíssima entre as duas, e isso não é bom para o modelo.

Sobre o curso Regressão Linear: Testando Relações e Prevendo Resultados

O curso Regressão Linear: Testando Relações e Prevendo Resultados possui 170 minutos de vídeos, em um total de 66 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

  • 1157 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1157 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1157 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1157 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Procurando planos para empresas?
Acesso por 1 ano
Estude 24h/dia onde e quando quiser
Novos cursos toda semana