Alura > Cursos de Data Science > Cursos de Machine Learning > Conteúdos de Machine Learning > Primeiras aulas do curso Regressão Linear: fundamentos e avaliação de modelos

Regressão Linear: fundamentos e avaliação de modelos

Introdução à Regressão Linear - Introdução ao curso

Apresentando a instrutora e o curso

Olá! Meu nome é Mariana, sou instrutora na Alura, cientista de dados e professora, apaixonada pelo mundo dos dados e da inteligência artificial. Estarei acompanhando vocês durante todo este curso de regressão linear.

Audiodescrição: Mariana é uma mulher branca, com cabelo castanho claro e olhos castanhos. Ela veste uma blusa azul e está em um ambiente de escritório, com uma estante de livros ao fundo.

Explorando o conteúdo do curso

Neste curso, vamos explorar o mundo das regressões lineares simples e múltiplas. Nosso objetivo é aprender a construir nosso primeiro modelo de regressão linear, partindo do zero até a otimização. O curso está dividido em cinco aulas, nas quais vamos entender o que é regressão linear, compreender as diferenças entre a tarefa de regressão e de classificação, aprender a preparar nossos dados para esses tipos de algoritmos, construir modelos simples e múltiplos de regressão, avaliá-los através de métricas e, por fim, otimizá-los.

É importante entender que vamos construir um modelo para solucionar um problema específico. Vamos agora conhecer qual é o problema de negócio para o qual vamos criar um modelo de regressão a fim de trazer uma solução.

Apresentando o problema de negócio

Nós somos cientistas de dados da empresa EduAnalytics. Esta empresa foi contratada por uma grande rede de universidades que deseja melhorar o desempenho dos seus cursos no Enade.

O Enade é um exame que mede o desempenho dos estudantes universitários. Nessa instituição de ensino, ou melhor, nessa rede de instituições de ensino, existem ações para aumentar as notas do Enade, como plantões de tirar dúvidas, monitorias e trilhas de aprendizagem, mas todas essas ações são executadas de forma reativa.

Propondo uma solução baseada em dados

Como assim? Quando um curso apresenta uma nota Enade considerada baixa, essas ações são implementadas para que, no próximo Enade, esse curso melhore sua nota. No entanto, essa instituição deseja mudar esse cenário. De que maneira? Ela busca uma solução baseada em dados que permita prever antecipadamente o desempenho dos alunos no Enade.

A intenção é identificar quais variáveis socioeducacionais, acadêmicas e comportamentais mais influenciam na nota, para elaborar intervenções pedagógicas personalizadas antes mesmo do Enade ser realizado, evitando assim notas baixas.

Introduzindo a tarefa de regressão

Para isso, chegamos à nossa solução. Como vamos prever de forma precisa e antecipada o desempenho dos alunos na avaliação do Enade? Vamos solucionar esse problema através de um modelo de regressão. Mas, para isso, precisamos primeiro entender o que é essa tarefa de regressão e quais as diferenças entre uma tarefa de regressão e uma tarefa de classificação.

É isso que veremos no próximo vídeo. Esperamos vocês lá!

Introdução à Regressão Linear - Regressão e classificação

Introduzindo o tema da aula

Olá, pessoal! Sejam bem-vindos a mais um vídeo da nossa primeira aula, onde estamos compreendendo os fundamentos da regressão linear. Neste vídeo, vamos aprender a diferença entre a tarefa de classificação e a tarefa de regressão.

Antes disso, vamos recordar qual é a pergunta que nosso modelo precisa responder: como prever, de forma precisa e antecipada, o desempenho dos alunos nas avaliações do Enade? Para construir um modelo de machine learning, precisamos primeiro escolher qual algoritmo vamos utilizar. A escolha do algoritmo dependerá do tipo de abordagem de aprendizagem de máquina que queremos utilizar. O primeiro passo será a escolha da abordagem. No nosso caso, vamos optar pela aprendizagem supervisionada.

Explicando a aprendizagem supervisionada

Nesse tipo de aprendizagem, o modelo é treinado e aprende a partir de dados que chamamos de rotulados. O que seriam exemplos rotulados? São dados de entrada que, além das características e atributos, também possuem o rótulo, ou seja, a resposta conhecida. Como isso funciona? Temos nossos dados de entrada, que são enviados para nosso algoritmo. Este ajusta seus parâmetros e produz um modelo de machine learning que nos dará uma saída. A saída produzida pelo modelo é comparada com nosso rótulo, ou seja, com o valor real que queremos que o modelo preveja. Vamos ajustando o modelo, treinando-o e ajustando-o para que ele consiga prever exatamente os valores dos nossos rótulos.

Diferenciando regressão e classificação

Dentro da aprendizagem supervisionada, temos dois grandes grupos de atividades: a atividade de regressão e a atividade de classificação. Utilizamos a atividade de regressão quando queremos prever valores contínuos. Por exemplo, queremos prever o valor do aluguel de um imóvel, o desempenho dos alunos em uma determinada prova ou a porcentagem de participação dos professores nas atividades da universidade.

Quando lidamos com valores contínuos, como porcentagens ou notas, estamos interessados em prever quantidades. Por exemplo, queremos prever quanto vamos pagar ou algum outro valor numérico. Na classificação, trabalhamos com a previsão de valores categóricos. Isso significa que, com base em informações de futuros alunos de uma universidade, queremos prever quais irão para Ciência de Dados, Ciência da Computação, Sistemas de Informação ou Engenharia da Computação. Nesse caso, não estamos lidando com valores contínuos, como preços, mas sim com categorias, como tipos de curso.

Aplicando a regressão no cenário educacional

Outro exemplo seria prever se um determinado grupo de alunos estará abaixo, acima ou na média. Novamente, estamos lidando com categorias. Quando queremos prever um valor contínuo, ou seja, quantificar algo, utilizamos a atividade de regressão. Quando queremos prever uma categoria ou classe, partimos para a atividade de classificação.

No nosso cenário, queremos prever o desempenho dos alunos no Enade, especificamente a nota deles. Estamos lidando com um valor numérico contínuo, não com categorias. A instituição de ensino nos forneceu registros socioeconômicos dos alunos e a nota do Enade. Portanto, estamos lidando com dados rotulados, pois já temos a resposta que queremos prever, que é a nota. Vamos treinar um modelo com esses dados rotulados.

Concluindo com a escolha do algoritmo

Como queremos prever valores contínuos, utilizaremos a tarefa de regressão. Optamos pelo algoritmo de regressão linear. Antes de desenvolver o modelo, precisamos entender a base da regressão linear, que é a equação da reta. Vamos explorar isso no próximo vídeo. Até lá!

Introdução à Regressão Linear - Equação da reta

Introduzindo o tema da regressão linear

Olá, pessoal! Como estão? Bem-vindos ao nosso último vídeo da primeira aula, onde estamos compreendendo os fundamentos da regressão linear. Neste vídeo, vamos entender a base de funcionamento do algoritmo de previsão.

Temos a nossa pergunta, que o modelo de previsão precisa responder: como prever de forma precisa e antecipada o desempenho dos alunos nas avaliações do Enade? Já escolhemos o algoritmo que vamos utilizar, que é o algoritmo de regressão linear, e vamos compreender como ele constrói e treina o nosso modelo de previsão.

Explicando a equação da reta

A base do nosso algoritmo de regressão linear é a conhecida equação da reta. A equação da reta é uma expressão matemática que modela a relação de linearidade entre uma variável dependente, que chamaremos de variável resposta, em relação a um conjunto de variáveis, ou uma variável, chamada de variável independente, que aqui chamaremos de variável explicativa. A equação da reta é representada por:

Y = β + β₁X + e

Vocês também podem encontrar como y = b + ax, mas aqui optaremos por utilizar a representação a partir do β.

Compreendendo a relação de linearidade

Como essa equação da reta representa essa relação de linearidade? Vamos compreender. Primeiro, consideremos um cenário imobiliário. O valor do imóvel será impactado pela quantidade de quartos. Por exemplo, um apartamento de 3 ou 4 quartos valerá mais do que um apartamento de 1 ou 2 quartos, pois a quantidade de quartos impacta diretamente no preço do imóvel. Temos aí uma relação de linearidade, e a equação da reta representa isso.

Onde o algoritmo de regressão linear se encaixa? A regressão linear tenta traçar uma reta que melhor represente a relação de linearidade entre variáveis independentes, que no nosso contexto serão as variáveis explicativas, ou seja, os atributos do nosso dataset, e uma variável resposta, que para nós é a variável-alvo, aquilo que estamos querendo prever. A regressão linear tenta traçar a melhor reta que represente essa relação de linearidade.

Detalhando os componentes da equação

Precisamos entender como, de fato, a regressão linear traça essa reta. Na equação da reta, temos dois termos: o intercepto e o coeficiente angular. A regressão linear tenta encontrar o melhor intercepto e o melhor coeficiente angular possíveis para traçar essa reta que represente a relação de linearidade entre os dados.

Existe um detalhe importante: sabemos que o modelo de previsão, sobretudo no processo de treinamento, não vai acertar 100% do tempo o valor exato. Trabalhamos com dados rotulados, então ele não vai acertar 100% do tempo o valor exato dos nossos rótulos. Por isso, quando o modelo de regressão linear traça a reta, ele também considera um valor de erro, que é a diferença entre o valor real e o valor previsto.

Interpretando os coeficientes

Portanto, o algoritmo de regressão linear produz uma equação da reta de y, que é a variável resposta, a variável-alvo, igual a β, que é o intercepto, mais β₁, que é o coeficiente angular, vezes x, que, no caso, é a variável explicativa, representando os atributos do nosso dataset. É aí que se observa a diferença entre o valor real e o valor previsto.

Vamos compreender melhor o que cada um desses coeficientes significa. O que representa cada um desses termos? Primeiro, o β₀. O β₀ indica o valor de y quando x é igual a zero. No contexto imobiliário, se temos um β₀ de 1.500, isso significa que, quando x for igual a zero, ou seja, quando o apartamento não tiver nenhum quarto, o valor do imóvel será 1.500.

O β₁ é chamado de coeficiente angular e indica quanto y aumenta ou diminui quando x varia em uma unidade. Assim, quando aumentamos a quantidade de quartos, o valor do imóvel sobe proporcionalmente ao β₁. E o ε? Ele representa o erro, a diferença entre o valor real e o valor previsto pela regressão.

β₀ (intercepto): valor previsto quando x = 0
β₁ (coeficiente): quanto y aumenta ou diminui quando x varia 1 unidade
ε (erro): diferença entre valor previsto e real

Aplicando a regressão linear ao problema do Enade

Voltando ao nosso problema, digamos que x seja as horas de estudo por semana de um estudante, e y, a variável alvo, seja o desempenho do estudante no Enade. Se temos um β₁ de 2.5, isso significa que, a cada 1 hora de estudo adicional, espera-se que a nota aumente em 2,5 pontos. Se o estudante aumentar 1 hora de estudo, a nota do deverá aumentar em 2,5.

x: horas de estudo por semana
y: desempenho no ENADE
Se β₁ = 2.5

E o β₀? Suponhamos que β₀ seja 4. Isso indica que, se o estudante não estudar nenhuma hora por semana, espera-se que ele tire 4 na avaliação. Essa é a relação entre o coeficiente angular e o intercepto.

Visualizando a relação entre variáveis

O algoritmo de regressão linear busca encontrar o melhor coeficiente angular e o melhor intercepto para representar a relação de linearidade entre as variáveis independentes e a variável dependente. O objetivo é minimizar o erro. O algoritmo de regressão linear tenta reduzir esse valor do erro.

Temos um gráfico que representa a relação entre o desempenho e as horas de estudo por semana. Nesse gráfico, há uma reta vermelha, que é a reta prevista pela regressão linear, e bolinhas azuis, que são os valores reais das notas dos estudantes, ou seja, os rótulos. A regressão linear tenta traçar essa reta de modo a representar melhor a relação linear entre as horas de estudo e o desempenho no exame.

Entre as amostras reais, os valores dos rótulos e a reta prevista, existe um tracejado que representa o erro, ou seja, a distância entre o valor previsto e as amostras reais. O objetivo da regressão linear é diminuir essa distância, reduzindo assim o valor do erro. Dessa forma, o algoritmo de regressão linear realiza o processo de treinamento para chegar ao melhor modelo de previsão para o nosso cenário.

Concluindo e preparando para a próxima aula

Agora que compreendemos como é feito o processo de treinamento da regressão linear, vamos entender como preparar os dados para esse algoritmo. Quais são as melhores técnicas que podemos aplicar no problema do Enade para preparar os dados para o processo de treinamento? Na próxima aula, discutiremos a preparação dos dados. Até lá!

Sobre o curso Regressão Linear: fundamentos e avaliação de modelos

O curso Regressão Linear: fundamentos e avaliação de modelos possui 135 minutos de vídeos, em um total de 40 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas