+2 meses grátis para
acelerar a sua carreira

Tá acabando!

00

DIAS

00

HORAS

00

MIN

00

SEG

Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Engenharia de pipelines: machine learning e integração com AWS

Engenharia de pipelines: machine learning e integração com AWS

Fundamentos Engenharia de Machine Learning - Apresentação

Apresentando o instrutor e o curso

Olá! Meu nome é Henrique Bittencourt.

Audiodescrição: Henrique é um homem branco, com cabelo preto, um pouco acima dos ombros. Ele veste uma camiseta preta e está em um cenário com uma parede azulada, meio roxa, ao fundo. Há uma prateleira atrás dele com alguns itens, incluindo uma máquina de escrever e um vaso com uma planta.

Estou aqui para convidá-los a assistir ao meu curso de MLOps na prática com a AWS.

Descrevendo o público-alvo e o conteúdo do curso

Este curso foi desenvolvido para qualquer pessoa, independentemente do nível de experiência, com foco em profissionais de ciência de dados. No entanto, não se preocupe se estiver iniciando na área, pois também será possível acompanhar. Todos os arquivos estarão disponíveis na descrição do vídeo.

Vamos começar do zero, explorando todos os arquivos e montando uma pipeline funcional de machine learning do início ao fim. Para aqueles que já são profissionais na área de ciência de dados, o foco será em como estruturar esses arquivos e auxiliar na criação dessa pipeline.

Estamos confiantes de que todos poderão aproveitar este curso. Estamos muito felizes em compartilhar esse conhecimento e esperamos vê-los lá.

Fundamentos Engenharia de Machine Learning - Por que usar Machine Learning?

Introduzindo o curso de MLOps na Prática com AWS

Vamos iniciar o curso de MLOps na Prática com AWS. Este curso será composto por seis aulas. Na primeira aula, vamos focar na engenharia de Machine Learning. Vamos fornecer um contexto geral sobre Machine Learning, mas com ênfase na engenharia de Machine Learning, explicando por que essa área foi criada.

Já temos o trabalho de cientista de dados há algum tempo. Devido a esse trabalho, surgiu a necessidade de uma nova área: a engenharia de Machine Learning, que combina conhecimentos de ciência de dados com desenvolvimento de software, ou seja, engenharia de software. Além disso, há uma interseção com DevOps. Esses são os três principais pilares da engenharia de Machine Learning. Vamos explicar como tudo isso se conecta.

Explorando os fundamentos da engenharia de Machine Learning

Nos fundamentos da engenharia de Machine Learning, vamos explorar por que utilizamos Machine Learning. Vamos analisar em quais situações o Machine Learning é aplicado e quais problemas ele pode resolver para nós. Listamos alguns dos problemas mais conhecidos.

Começamos com a classificação, que envolve separar itens em categorias. Por exemplo, determinar se um e-mail é spam ou não, ou prever o churn, que é quando perdemos um cliente. Tudo isso envolve predição. O modelo tenta prever se algo vai acontecer no futuro ou se algo é ou não é. Ele não sabe ao certo, mas relaciona vários parâmetros, cria correlações e tenta fornecer uma resposta.

Exemplificando aplicações de Machine Learning

Outro exemplo é o modelo de regressão, que prevê valores numéricos, como o preço de um imóvel. Temos também a recomendação, como no Netflix, onde muitas vezes, ao acessar o perfil, aparece um filme recomendado com base no perfil e nas preferências do usuário, além de outras informações.

Por fim, temos as séries temporais, que são utilizadas para prever valores ao longo do tempo.

A linha do tempo nos permite prever eventos futuros, como o valor de um imóvel em determinada região daqui a um ano, a demanda de venda de um produto, se ele será vendido ou não, e em que quantidade. Tudo isso é feito por meio de predições. Além disso, podemos realizar a detecção de anomalias para identificar eventos fora do padrão, como fraudes bancárias, que são bastante comuns. Podemos ter um modelo em compras para detecção de fraudes e prever falhas em máquinas, permitindo que antecipemos problemas em caminhões, aparelhos ou qualquer máquina, corrigindo-os antes que ocorram. Tudo isso auxilia significativamente a área de negócios.

Destacando a importância do Machine Learning para a equipe de dados

Essas informações são extremamente relevantes para a equipe de dados, que utiliza esses valores para montar dashboards e gráficos no Power BI, possibilitando a venda de produtos ou a obtenção de insights sobre os dados. O Machine Learning é utilizado por cientistas de dados que desejam extrair grande valor informativo de um volume massivo de dados. Muitas vezes, é necessário um modelo de Machine Learning para auxiliar nesse processo, pois, embora existam técnicas estatísticas que já oferecem grandes insights, elas podem não ser suficientes para lidar com uma volumetria de dados enorme. Técnicas básicas de programação, como ifs e elses, podem não ser adequadas para encontrar padrões complexos.

Portanto, precisamos de uma ferramenta mais poderosa. Muitas tarefas apresentam padrões difíceis de programar, e é aí que o modelo de Machine Learning se torna essencial. Ele consegue correlacionar padrões a partir dos dados de uma forma que um cientista, mesmo utilizando técnicas estatísticas, não conseguiria. Assim, usamos técnicas estatísticas para obter insights dos dados, mas deixamos que o modelo de Machine Learning trabalhe com os dados em sua forma crua, criando correlações por conta própria.

Fundamentos Engenharia de Machine Learning - Modelo de Machine Learning

Introduzindo o conceito de modelo de Machine Learning

No vídeo anterior, exploramos um pouco sobre Machine Learning (aprendizado de máquina) em geral e por que utilizamos essa tecnologia no dia a dia. Agora, gostaríamos de introduzir o conceito de modelo de Machine Learning, explicando o que é um modelo e, especificamente, qual modelo utilizaremos nas próximas aulas.

Para este curso, escolhemos um modelo de Churn para explorar. A primeira pergunta que surge é: o que é Churn? Churn é a probabilidade de alguém deixar de ser cliente. Assim, ao analisarmos todas as características de uma pessoa específica, considerando todas as variáveis, determinamos qual é a probabilidade de Churn. Trata-se de uma aplicação de classificação, que foi a primeira que vimos na aula passada. O modelo classifica entre Churn e não Churn, sendo essa a resposta que ele fornece. O valor de saída seria, portanto, zero ou um, onde zero indica não Churn e um indica Churn. É importante lembrar que tudo isso é uma predição; o modelo nos fornece uma possibilidade de isso acontecer.

Explicando o funcionamento de um modelo

Vamos falar mais sobre o que é um modelo. Um modelo nada mais é do que uma função. Ele recebe um valor de x, então f(x), e essa função f nos dá uma resposta y. É basicamente isso.

f(x) -> y

Ele possui uma entrada x, que pode ser um conjunto de dados, como um dataset em formato CSV, por exemplo, ou outro conjunto de dados, podendo até ser uma query ou um dataframe. Normalmente, é um dataframe; nós transformamos esse arquivo CSV em um pandas dataframe ou em um Spark dataframe e o enviamos para um modelo.

Input X
- Dataset(csv)
- Imagem
- Áudio

Explorando diferentes tipos de entrada e saída

A entrada também pode ser uma imagem, em modelos de classificação de ML, para classificação de objetos. Por exemplo, ao inserir uma foto de um copo, o modelo identificará que se trata de um copo. Nesse caso, a entrada é a foto e a saída é a label, o nome "copo".

Pode ser um áudio, em que um modelo interpreta o som e tenta extrair alguma informação, categorizando-o, por exemplo, em uma sentiment analysis (análise de sentimento), que determina se o sentimento é positivo ou negativo.

Para cada tipo de entrada, há uma saída respectiva, dependendo do modelo utilizado, que determinará essas características. Podemos ter uma entrada, no nosso caso, focaremos agora em um modelo de churn, onde a entrada são os dados de uma pessoa específica. A saída é um valor de uma classe, que seria o primeiro resultado, podendo ser 0 ou 1. No exemplo de churn, a saída é binária: 0 ou 1, ou seja, churn ou não churn.

Output Y
- Classe
- Valor numérico
- Probabilidade

Detalhando o modelo de churn

Para o modelo de churn, especificamente, as entradas podem incluir dados como contrato, método de pagamento e tempo de permanência (tenure).

Input X - Dataset(csv)
- Contract
- PaymentMethod
- Tenure

E a saída será um valor binário indicando churn ou não churn.

Output Y
- Output Binário
- 1 ou 0
- Churn ou No Churn

Concluindo a aula e introduzindo o próximo tema

Encerramos esta aula aqui. Na próxima aula, discutiremos sobre o artefato, os artefatos de Machine Learning, o que são e como os utilizamos.

Sobre o curso Engenharia de pipelines: machine learning e integração com AWS

O curso Engenharia de pipelines: machine learning e integração com AWS possui 111 minutos de vídeos, em um total de 47 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas