Olá! Meu nome é Mariana, sou instrutora na Alura, cientista de dados e professora, apaixonada pelo mundo dos dados e da inteligência artificial. Estarei acompanhando vocês durante todo este curso de regressão linear.
Audiodescrição: Mariana é uma mulher branca, com cabelo castanho claro e olhos castanhos. Ela veste uma blusa azul e está em um ambiente de escritório, com uma estante de livros ao fundo.
Neste curso, vamos explorar o mundo das regressões lineares simples e múltiplas. Nosso objetivo é aprender a construir nosso primeiro modelo de regressão linear, partindo do zero até a otimização. O curso está dividido em cinco aulas, nas quais vamos entender o que é regressão linear, compreender as diferenças entre a tarefa de regressão e de classificação, aprender a preparar nossos dados para esses tipos de algoritmos, construir modelos simples e múltiplos de regressão, avaliá-los através de métricas e, por fim, otimizá-los.
É importante entender que vamos construir um modelo para solucionar um problema específico. Vamos agora conhecer qual é o problema de negócio para o qual vamos criar um modelo de regressão a fim de trazer uma solução.
Nós somos cientistas de dados da empresa EduAnalytics. Esta empresa foi contratada por uma grande rede de universidades que deseja melhorar o desempenho dos seus cursos no Enade.
O Enade é um exame que mede o desempenho dos estudantes universitários. Nessa instituição de ensino, ou melhor, nessa rede de instituições de ensino, existem ações para aumentar as notas do Enade, como plantões de tirar dúvidas, monitorias e trilhas de aprendizagem, mas todas essas ações são executadas de forma reativa.
Como assim? Quando um curso apresenta uma nota Enade considerada baixa, essas ações são implementadas para que, no próximo Enade, esse curso melhore sua nota. No entanto, essa instituição deseja mudar esse cenário. De que maneira? Ela busca uma solução baseada em dados que permita prever antecipadamente o desempenho dos alunos no Enade.
A intenção é identificar quais variáveis socioeducacionais, acadêmicas e comportamentais mais influenciam na nota, para elaborar intervenções pedagógicas personalizadas antes mesmo do Enade ser realizado, evitando assim notas baixas.
Para isso, chegamos à nossa solução. Como vamos prever de forma precisa e antecipada o desempenho dos alunos na avaliação do Enade? Vamos solucionar esse problema através de um modelo de regressão. Mas, para isso, precisamos primeiro entender o que é essa tarefa de regressão e quais as diferenças entre uma tarefa de regressão e uma tarefa de classificação.
É isso que veremos no próximo vídeo. Esperamos vocês lá!
Olá, pessoal! Sejam bem-vindos a mais um vídeo da nossa primeira aula, onde estamos compreendendo os fundamentos da regressão linear. Neste vídeo, vamos aprender a diferença entre a tarefa de classificação e a tarefa de regressão.
Antes disso, vamos recordar qual é a pergunta que nosso modelo precisa responder: como prever, de forma precisa e antecipada, o desempenho dos alunos nas avaliações do Enade? Para construir um modelo de machine learning, precisamos primeiro escolher qual algoritmo vamos utilizar. A escolha do algoritmo dependerá do tipo de abordagem de aprendizagem de máquina que queremos utilizar. O primeiro passo será a escolha da abordagem. No nosso caso, vamos optar pela aprendizagem supervisionada.
Nesse tipo de aprendizagem, o modelo é treinado e aprende a partir de dados que chamamos de rotulados. O que seriam exemplos rotulados? São dados de entrada que, além das características e atributos, também possuem o rótulo, ou seja, a resposta conhecida. Como isso funciona? Temos nossos dados de entrada, que são enviados para nosso algoritmo. Este ajusta seus parâmetros e produz um modelo de machine learning que nos dará uma saída. A saída produzida pelo modelo é comparada com nosso rótulo, ou seja, com o valor real que queremos que o modelo preveja. Vamos ajustando o modelo, treinando-o e ajustando-o para que ele consiga prever exatamente os valores dos nossos rótulos.
Dentro da aprendizagem supervisionada, temos dois grandes grupos de atividades: a atividade de regressão e a atividade de classificação. Utilizamos a atividade de regressão quando queremos prever valores contínuos. Por exemplo, queremos prever o valor do aluguel de um imóvel, o desempenho dos alunos em uma determinada prova ou a porcentagem de participação dos professores nas atividades da universidade.
Quando lidamos com valores contínuos, como porcentagens ou notas, estamos interessados em prever quantidades. Por exemplo, queremos prever quanto vamos pagar ou algum outro valor numérico. Na classificação, trabalhamos com a previsão de valores categóricos. Isso significa que, com base em informações de futuros alunos de uma universidade, queremos prever quais irão para Ciência de Dados, Ciência da Computação, Sistemas de Informação ou Engenharia da Computação. Nesse caso, não estamos lidando com valores contínuos, como preços, mas sim com categorias, como tipos de curso.
Outro exemplo seria prever se um determinado grupo de alunos estará abaixo, acima ou na média. Novamente, estamos lidando com categorias. Quando queremos prever um valor contínuo, ou seja, quantificar algo, utilizamos a atividade de regressão. Quando queremos prever uma categoria ou classe, partimos para a atividade de classificação.
No nosso cenário, queremos prever o desempenho dos alunos no Enade, especificamente a nota deles. Estamos lidando com um valor numérico contínuo, não com categorias. A instituição de ensino nos forneceu registros socioeconômicos dos alunos e a nota do Enade. Portanto, estamos lidando com dados rotulados, pois já temos a resposta que queremos prever, que é a nota. Vamos treinar um modelo com esses dados rotulados.
Como queremos prever valores contínuos, utilizaremos a tarefa de regressão. Optamos pelo algoritmo de regressão linear. Antes de desenvolver o modelo, precisamos entender a base da regressão linear, que é a equação da reta. Vamos explorar isso no próximo vídeo. Até lá!
Olá, pessoal! Como estão? Bem-vindos ao nosso último vídeo da primeira aula, onde estamos compreendendo os fundamentos da regressão linear. Neste vídeo, vamos entender a base de funcionamento do algoritmo de previsão.
Temos a nossa pergunta, que o modelo de previsão precisa responder: como prever de forma precisa e antecipada o desempenho dos alunos nas avaliações do Enade? Já escolhemos o algoritmo que vamos utilizar, que é o algoritmo de regressão linear, e vamos compreender como ele constrói e treina o nosso modelo de previsão.
A base do nosso algoritmo de regressão linear é a conhecida equação da reta. A equação da reta é uma expressão matemática que modela a relação de linearidade entre uma variável dependente, que chamaremos de variável resposta, em relação a um conjunto de variáveis, ou uma variável, chamada de variável independente, que aqui chamaremos de variável explicativa. A equação da reta é representada por:
Y = β + β₁X + e
Vocês também podem encontrar como y = b + ax, mas aqui optaremos por utilizar a representação a partir do β.
Como essa equação da reta representa essa relação de linearidade? Vamos compreender. Primeiro, consideremos um cenário imobiliário. O valor do imóvel será impactado pela quantidade de quartos. Por exemplo, um apartamento de 3 ou 4 quartos valerá mais do que um apartamento de 1 ou 2 quartos, pois a quantidade de quartos impacta diretamente no preço do imóvel. Temos aí uma relação de linearidade, e a equação da reta representa isso.
Onde o algoritmo de regressão linear se encaixa? A regressão linear tenta traçar uma reta que melhor represente a relação de linearidade entre variáveis independentes, que no nosso contexto serão as variáveis explicativas, ou seja, os atributos do nosso dataset, e uma variável resposta, que para nós é a variável-alvo, aquilo que estamos querendo prever. A regressão linear tenta traçar a melhor reta que represente essa relação de linearidade.
Precisamos entender como, de fato, a regressão linear traça essa reta. Na equação da reta, temos dois termos: o intercepto e o coeficiente angular. A regressão linear tenta encontrar o melhor intercepto e o melhor coeficiente angular possíveis para traçar essa reta que represente a relação de linearidade entre os dados.
Existe um detalhe importante: sabemos que o modelo de previsão, sobretudo no processo de treinamento, não vai acertar 100% do tempo o valor exato. Trabalhamos com dados rotulados, então ele não vai acertar 100% do tempo o valor exato dos nossos rótulos. Por isso, quando o modelo de regressão linear traça a reta, ele também considera um valor de erro, que é a diferença entre o valor real e o valor previsto.
Portanto, o algoritmo de regressão linear produz uma equação da reta de y, que é a variável resposta, a variável-alvo, igual a β, que é o intercepto, mais β₁, que é o coeficiente angular, vezes x, que, no caso, é a variável explicativa, representando os atributos do nosso dataset. É aí que se observa a diferença entre o valor real e o valor previsto.
Vamos compreender melhor o que cada um desses coeficientes significa. O que representa cada um desses termos? Primeiro, o β₀. O β₀ indica o valor de y quando x é igual a zero. No contexto imobiliário, se temos um β₀ de 1.500, isso significa que, quando x for igual a zero, ou seja, quando o apartamento não tiver nenhum quarto, o valor do imóvel será 1.500.
O β₁ é chamado de coeficiente angular e indica quanto y aumenta ou diminui quando x varia em uma unidade. Assim, quando aumentamos a quantidade de quartos, o valor do imóvel sobe proporcionalmente ao β₁. E o ε? Ele representa o erro, a diferença entre o valor real e o valor previsto pela regressão.
β₀ (intercepto): valor previsto quando x = 0
β₁ (coeficiente): quanto y aumenta ou diminui quando x varia 1 unidade
ε (erro): diferença entre valor previsto e real
Voltando ao nosso problema, digamos que x seja as horas de estudo por semana de um estudante, e y, a variável alvo, seja o desempenho do estudante no Enade. Se temos um β₁ de 2.5, isso significa que, a cada 1 hora de estudo adicional, espera-se que a nota aumente em 2,5 pontos. Se o estudante aumentar 1 hora de estudo, a nota do deverá aumentar em 2,5.
x: horas de estudo por semana
y: desempenho no ENADE
Se β₁ = 2.5
E o β₀? Suponhamos que β₀ seja 4. Isso indica que, se o estudante não estudar nenhuma hora por semana, espera-se que ele tire 4 na avaliação. Essa é a relação entre o coeficiente angular e o intercepto.
O algoritmo de regressão linear busca encontrar o melhor coeficiente angular e o melhor intercepto para representar a relação de linearidade entre as variáveis independentes e a variável dependente. O objetivo é minimizar o erro. O algoritmo de regressão linear tenta reduzir esse valor do erro.
Temos um gráfico que representa a relação entre o desempenho e as horas de estudo por semana. Nesse gráfico, há uma reta vermelha, que é a reta prevista pela regressão linear, e bolinhas azuis, que são os valores reais das notas dos estudantes, ou seja, os rótulos. A regressão linear tenta traçar essa reta de modo a representar melhor a relação linear entre as horas de estudo e o desempenho no exame.
Entre as amostras reais, os valores dos rótulos e a reta prevista, existe um tracejado que representa o erro, ou seja, a distância entre o valor previsto e as amostras reais. O objetivo da regressão linear é diminuir essa distância, reduzindo assim o valor do erro. Dessa forma, o algoritmo de regressão linear realiza o processo de treinamento para chegar ao melhor modelo de previsão para o nosso cenário.
Agora que compreendemos como é feito o processo de treinamento da regressão linear, vamos entender como preparar os dados para esse algoritmo. Quais são as melhores técnicas que podemos aplicar no problema do Enade para preparar os dados para o processo de treinamento? Na próxima aula, discutiremos a preparação dos dados. Até lá!
O curso Regressão Linear: fundamentos e avaliação de modelos possui 135 minutos de vídeos, em um total de 40 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Matricule-se no plano PLUS e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Mobile, Programação, Front-end, DevOps, UX & Design, Marketing Digital, Data Science, Inovação & Gestão, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Para estudantes ultra comprometidos atingirem seu objetivo mais rápido.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.