curso de

Word2Vec: interpretação da linguagem humana com Word embedding

Estudando este mês:

e mais 52 alunos(as)

Resumo do curso

  • Aprenda como representar palavras com One-hot encode, vantagens e desvantagens
  • Entenda o que é Word2Vec e suas vantagens
  • Use modelos de Word2Vec já treinados
  • Compreenda os impactos dos vieses nos modelos de Word2Vec
  • Combine vetores de palavras para representar textos e classificá-los

Público alvo

Pessoas com interesse em criar aplicações que envolvam interpretação da linguagem humana, utilizando machine learning e inteligência artificial.

Conteúdo relacionado

Cursos de Machine Learning em Data Science

Leia nossos artigos de Data Science

Última atualização

04/05/2022

Já é aluno?

Comece o curso agora

10h

p/ conclusão

55

Atividades

202

Minutos de video

715

Alunos nesse curso

9.1

Nota deste curso

Certificado de participação

Um pouco mais do conteúdo

Descubra se esse curso é pra você lendo as primeiras aulas de Word2Vec: interpretação da linguagem humana com Word embedding

Instrutores

  • Um quase físico, apaixonado por dados e educação. Atuou durante alguns anos na área de Data Science na maior fabricante de eletrodomésticos do mundo e trabalhou em projetos de Processamento de Linguagem Natural para a Petrobrás. Atualmente dedica-se à aplicação de machine learning na área da educação e na democratização do acesso ao ensino de Data Science no Brasil.

Conteúdo Detalhado

  1. One-hot encode

    • Importando dados a partir do drive
    • One-hot encode
    • Utilizando CountVectorizer
  2. Word2Vec: primeiro contato

    • Conhecendo o Word2Vec
    • Arquiteruras de treinamento: Word2Vec
    • Carregando um modelo Word2Vec
    • Analisando os embeddings
  3. Explorando melhor o Word2Vec

    • Por trás das 300 dimensões
    • Explorando as relações entre palavras
    • Utilizando a lib python Gensim
  4. Combinando vetores

    • Construindo um Tokenizador
    • Combinando vetores Word2Vec
    • Analisando o pré-processamento do Word2Vec
    • Combinação de Word embedding
  5. Classicando com Word2wec

    • Classificando os textos com regressão logistica
    • Interpretando a classificação
    • Comparando classificadores
    • Métricas de avaliação
  6. Classicação com Word2vec Skip-gram

    • Classificando com arquitetura Skip-gram
    • CBOW vs. Skip-gram

Ainda não estuda com a gente?

Invista na transformação da sua carreira!

Comece agora

nossos alunos e alunas

Experiências de quem já mergulhou com a gente.

Gostei muito do curso em geral e é fundamental abordar o enviesamento dos conjuntos de dados. Inclusive este seria um excelente tema para novo curso rsObs: no listbox das aulas, o título da aula 5 está escrito errado.

Word2Vec: interpretação da linguagem humana com Word embedding

Wilson Ronaldo de Souza Assis

Achei o curso excelente, mas uma sugestão: acho que seria bom colocar logo no começo do curso os arquivos que precisam ser baixados. Como são arquivos grandes, eles demoram um bom tempo baixando.Isso fez com que eu não conseguisse assistir algumas aulas no tempo em que eu tinha determinado: tinha uma hora livre, fui estudar, mas só o download do arquivo levou quase 1 hora. Precisei continuar no dia seguinte.No mais, achei o curso excelente!

Word2Vec: interpretação da linguagem humana com Word embedding

Lucas Pereira

Foi muito legal você mostrar como combinar o uso do gensim com word-vecs pré-treinados para língua portuguesa. O material do NILC da USP é realmente muito bom. Se puder contribuir, acho que ainda falta alguns cursos com um nível mais avançado de dificuldade. Por exemplo, em vez de usar soma (ou média) de palavras, como usar uma LSTM e processar a sequência inteira como uma série temporal. Outro detalhe é que se a sua frase tiver um excesso de 'unknowns', essa soma de palavras vai ficar "enviesada" pelo embedding 'unknown', e o classificador não vai funcionar. Nesse caso, poderíamos procurar por palavras mais próximas da string de entrada ou corrigir (se for um typo), ou até descartar. Por fim, um outro assunto interessante é: como treinar vetores de palavras específicas pra ressignificá-las, sem mexer no emdding do corpus completo? Por exemplo, inicializar com skip_gram do NILC, mas retreinar as palavras mais (ou menos) frequentes do corpus do seu dataset particular, em função da tarefa que está sendo realizada. Sei que são projetos mais complexos, mas seria legal ter cursos mais avançados nessa linha.

Word2Vec: interpretação da linguagem humana com Word embedding

Bruno Fontana da Silva

Aprenda Machine Learning com esse e outros cursos, comece agora!

Plus

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$85
à vista R$1.020
Matricule-se

Pro

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas