Boas vindas ao curso de Clustering: extraindo padrões de dados. Sou a instrutora Thainá Mariani e acompanharei vocês ao longo das aulas.
Começaremos com o seguinte questionamento: imaginemos que possuímos uma empresa de cartão de crédito, e qual seria o risco que clientes têm de atrasar o pagamento da fatura?
Podemos utilizar esta informação para futuras decisões de negócios, por exemplo. Para sabermos sobre este risco, temos três categorias: baixo, médio e alto.
No contexto de aprendizado de máquina, usamos algumas técnicas de classificação que irão dizer qual categoria um cliente específico se encaixa e resolver este problema para nós.
Faremos outra pergunta: Qual o comportamento dos clientes com o cartão de crédito? Não somente o risco de atrasar a fatura.
Antes tínhamos três opções, o risco baixo, o médio e o baixo. Agora queremos saber sobre o comportamento, e neste caso não temos categorias. Poderíamos classificar como "ruim" ou "bom", porém mesmo assim não seria interessante o suficiente.
Obviamente, não podemos analisar cada um dos clientes separadamente, afinal a ideia é que saibamos que um grupo específico de clientes possui um determinado comportamento, e com base nisso poderemos tomar decisões e aplicar algumas regras de negócios.
Então queremos saber este comportamento baseado nos dados dos clientes em relação ao uso do cartão de crédito. Portanto não é algo tão específico e pontual quanto saber o risco de atrasar uma fatura, e sim algo mais genérico.
Por isso a proposta é agrupar os clientes com características similares, de modo que os membros de um mesmo grupo possuem comportamentos parecidos no uso do cartão de crédito, mesmo que ainda não saibamos quais são.
Para fazermos isso, usaremos cluster no Jupyter Notebook no decorrer do curso que construíremos juntos.
Utilizaremos algumas bibliotecas, em especial o pandas
. Em seguida, para gerarmos os clusters como o primeiro passo, usaremos a sklearn
.
É necessário ter alguma noção de Python para este curso, mas não precisa especialmente saber sobre essas bibliotecas. Caso tenha interesse em se aprofundar, busque pelos cursos de pandas
oferecidos aqui na Plataforma Alura.
Também é interessante ter uma ideia sobre o conceito de cluster, afinal a proposta deste curso não é aprender a gerar, e sim a interpretar os clusters.
De volta ao nosso problema de agrupamento de clientes, depois de darmos o primeiro passo com os grupos com características similares, teremos vários clusters. Eles não querem dizer nada por si só, então precisamos interepretá-los e entender o que representam.
Este é o nosso segundo passo, portanto interpretar um cluster é crucial para o nosso curso e para compreendermos o que dizem sobre os nossos clientes.
Com isso, extraíremos informações e teremos uma boa base para tomarmos decisões em nosso negócio. Isso já passa para a nossa próxima tarefa: como iremos utilizar estes clusters para de fato tomarmos decisões, como por exemplo, aumentar o limite da fatura de clientes que pagam sua fatura em dia?
Então, vamos lá!
Antes de discutirmos sobre os problemas de aprendizado não supervisionado, aprenderemos sobre o supervisionado e entender suas diferenças.
Relembremos a questão da empresa de cartões de crédito: Qual o risco de os clientes atrasarem o pagamento de faturas?
Pensaremos em um cliente em específico que chamaremos de Pedro Lauro e queremos classificá-lo em alguma categoria de risco, que são: baixo, alto ou médio.
Podemos utilizar uma técnica de aprendizado de máquina, em que a partir de uma base de dados de clientes que já conhecemos o risco, conseguiremos encaixar Pedro Lauro em alguma dessas categorias.
Essa técnica é o aprendizado supervisionado de classificação. Mas como podemos validar se essa classificação está de fato correta?
Não podemos validar ainda a categoria do Pedro Lauro porque não temos dados o suficiente.
Vejamos um grupo de clientes em que já sabemos o risco de atrasarem a fatura. Maria da Silva, por exemplo, possui um risco baixo, essa informação é chamada de rótulo ou label. Teremos mais alguns clientes: João de Cruz, risco alto e Amadeu Romeu, risco médio.
Cliente | Risco |
---|---|
Maria da Silva | Baixo |
João da Cruz | Alto |
Amadeu Romeu | Médio |
Se utilizarmos a mesma técnica de aprendizado de máquina para descobrir o risco do Pedro Lauro, teríamos um resultado incorreto: Amadeu Romeu sairia como risco alto, e na verdade ele possui risco médio. A taxa de acerto foi de apenas 66%.
Cliente | Risco |
---|---|
Maria da Silva | Baixo |
João da Cruz | Alto |
Amadeu Romeu | Alto |
Passemos para outra situação a ser estudada: qual o comportamento dos clientes com o cartão de crédito, e isso inclui .
No próximo vídeo analisaremos as respostas.
Queremos saber o comportamento dos clientes em relação ao uso de cartão de crédito, isto é:
Trata-se de uma pergunta abrangente, diferente de classificar o risco dos clientes em três categorias, isto é, os labels.
Neste caso, não temos labels, então não podemos usar o método de classificar os clientes em categorias distintas de comportamento.
Voltaremos ao exemplo de Pedro Lauro. Suponhamos que o risco de Pedro Laura atrasar o pagamento da fatura é baixo, e queremos descobrir seu comportamento.
É neste ponto que utilizamos a clusterização, que faz parte do aprendizado não supervisionado. Neste ponto poderíamos executar um algoritmo de clusterização e criar grupos. Faríamos de maneira que cada cluster possua clientes com padrões de comportamento similares.
Suponhamos que depois da execução do algoritmo tenhamos chegado a duas categorias, cada uma abarca diferentes clientes. Essas categorias são "comportamento 1" e "comportamento 2", e Pedro Lauro teria ficado nesta última.
Mas como podemos saber as características desses dois comportamentos? E como, ainda, podemos saber se as informações fazem sentido real e como validar a técnica que utilizamos?
É justamente a interpretação de clusters que iremos analisar ao longo deste curso.
O curso Clustering: extraindo padrões de dados possui 201 minutos de vídeos, em um total de 84 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.
Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.
Emitimos certificados para atestar que você finalizou nossos cursos e formações.
Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.
Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.
Emitimos certificados para atestar que você finalizou nossos cursos e formações.
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com Luri até 100 mensagens por semana.
Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.
Acesso completo
durante 1 ano
Estude 24h/dia
onde e quando quiser
Novos cursos
todas as semanas