Primeiras aulas do curso Linguagem Natural parte 2: Continuando com a análise de sentimento

Linguagem Natural parte 2: Continuando com a análise de sentimento

Otimizando a análise: o primeiro passo - Introdução

Oi, tudo bem? Meu nome é Tiago, eu trabalhei algum tempo com análise de dados e hoje trabalho com pesquisa, aplicando inteligência artificial na indústria de petróleo. Serei seu instrutor no curso de Introdução ao Processamento de Linguagem Natural parte 2.

Na parte 1 do curso, nós criamos um analisador de sentimento. Imagine a seguinte situação: você deseja ver um filme e procura na internet o que as pessoas estão dizendo sobre ele. Depois, na sua cabeça, você cria uma espécie de classificador: esse filme deve ser ruim por esses ou aqueles pontos, ou esse filme deve ser bom por esses ou aqueles pontos.

Na primeira parte, nós criamos justamente esse modelo. Porém, nós não tratamos tão bem os nossos dados, e é justamente isso que faremos nessa segunda parte. Iremos, por exemplo, modificar os stopwords que aprendemos na primeira parte, acrescentando outras palavras e outros símbolos para melhorarmos o nosso resultado.

Depois, vamos aprender a evitar variações de palavras, como variações de número ou de gênero, que semanticamente querem dizer a mesma coisa - por exemplo, "todas" e "todos", que o algoritmo poderia considerar coisas diferentes.

Também aprenderemos o Tfidf, uma nova forma de representar o nosso texto, atribuindo peso às palavras mais importantese e tornando o nosso modelo mais assertivo.

Em seguida, aprenderemos a dar uma espécie de memória ao nosso banco de dados por meio dos ngrams.

Mas por que fazer um curso de processamento de linguagem natural? Bom, aposto que você já viu algum tipo de propaganda como "fale com o nosso assistente pessoal" ou "tire dúvidas com o nosso robô". Tudo isso envolve um profundo conhecimento em processamento de linguagem natural. Porém, o PLN não se restringe apenas a assistentes virtuais ou análise de sentimento, mas também envolve sumarização, extração de informação e outros processos úteis na nossa vida.

É muito legal criar aplicações que irão facilitar a nossa vida, não? Se você está com vontade de aprender um pouco mais sobre processamento de linguagem natural, continue acompanhando o curso!

Até a próxima!

Otimizando a análise: o primeiro passo - Stopwords além dos textos

Antes de continuarmos, quero reforçar um conceito importantíssimo que vimo no curso anterior: as stopwords, ou seja, as palavras vazias. Para isso, utilizarei um exemplo com legos.

Imagine que meus conjunto de peças de lego representam frases, e cada peça é uma palavra. Agora, quero propor um desafio: como vocês classificariam esses dois conjuntos? Qual a principal diferença entre eles?

Eu aposto que você escolheu que um dos conjuntos contém peças vermelhas, e outro peças amarelas. Vamos repetir esse mesmo exercício para dois conjuntos menores de peças. Aposto que, novamente, você apontou que um deles contém uma peça vermelha, e o outro uma peça amarela.

Então, no primeiro caso, qual a relevância da peça azul na diferenciação entre os conjuntos? Bom, nenhuma. Portanto, se retirarmos a peça azul, continuaremos classificando nosso conjunto de maneira correta. Esse é o mesmo raciocínio que ocorre na remoção das nossas stopwords, já que elas não têm relevãncia para classificação.

Os stopwords também não necessariamente se restringem à lista que vimos no curso anterior, você pode criar as suas stopwords dependendo do seu projeto e de como você quer aplicar a sua classificação de sentimentos.

Pense um pouco e tente ir além das frases para identificar alguns stopwords no mundo. Até mais!

Otimizando a análise: o primeiro passo - Comparando pareto, com wordcloud

Vamos dar uma olhada no nosso pareto. O elemento principal no no nosso pareto é "é". Outras que aparecem em grande volume são o "O", o "A" e o ".".

Porém, na nossa nuvem de palavras, o "é", o "O" e o "A" não aparecem em destaque. Isso porque, quando o word cloud é implementado, ele retira automaticamente todos os caracteres únicos ("e", "o", "a", "é") e pontuações (".", ",", "!", "?"). Não é só o wordcloud que faz isso: o CountVectorizer(), que nós implementamos, também retira caracteres únicos e pontuações automaticamente.

Daqui a pouco, vamos aprender a realizar tratamentos para deixarmos a contagem de frequência do nosso pareto o mais parecida possível com a vetorização do wordcloud e do CountVectorizer.

Sobre o curso Linguagem Natural parte 2: Continuando com a análise de sentimento

O curso Linguagem Natural parte 2: Continuando com a análise de sentimento possui 95 minutos de vídeos, em um total de 36 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

  • 1150 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1150 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1150 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1150 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Procurando planos para empresas?
Acesso por 1 ano
Estude 24h/dia onde e quando quiser
Novos cursos toda semana