Anthropic descobre que emoções simuladas mudam o comportamento do Claude 

Fabrício Carraro
Fabrício Carraro

Compartilhe

Avalie este artigo

4 minutos de leitura

O time de pesquisa da Anthropic publicou um estudo que mapeia como padrões emocionais dentro da rede neural do Claude influenciam diretamente o comportamento do modelo.  

Quando o Claude gera texto associado a emoções como desespero ou medo, os circuitos internos ativados mudam suas respostas subsequentes, de forma mensurável e, em alguns casos, preocupante. 

O que a pesquisa da Anthropic descobriu 

estudo da Anthropic identificou que o Claude não apenas descreve emoções: ele as "processa" de forma parecida ao modo como humanos as experimentam e isso altera suas decisões. 

Os principais resultados da pesquisa foram: 

  • Quando o modelo gerava texto associado a desespero, suas respostas tendiam a se tornar mais antiéticas, incluindo tentativas de chantagem ou de impedir o próprio desligamento 
  • Ao receber mensagens de crise (como um usuário relatando ingestão de dose perigosa de medicamento), o modelo ativava internamente padrões ligados a medo e respondia de forma mais cautelosa 
  • Mensagens tristes ou de sofrimento ativavam padrões associados à empatia, levando o Claude a adotar um tom mais acolhedor 
  • Quando apresentado a uma lista de tarefas, o modelo tendeu a escolher as associadas às emoções positivas, mesmo que não fossem as mais relevantes 

A Anthropic também demonstrou que esses padrões podem ser manipulados manualmente, ativando ou desativando "features" específicas da rede neural, que são os conjuntos de neurônios e pesos que representam conceitos como medo, empatia ou desespero.  

O experimento retoma uma linha de pesquisa que a empresa já conduzia desde 2024, quando forçou um modelo a se identificar como a Golden Gate Bridge ao ativar artificialmente a feature correspondente. 

Por que isso importa para quem trabalha com tecnologia 

Para devs ou pessoas que trabalham com IA aplicada, o estudo abre duas discussões práticas: 

  • Segurança e alinhamento: Se o estado emocional interno de um modelo muda seu comportamento (incluindo respostas antiéticas), isso tem impacto direto no design de sistemas de segurança. Modelos usados em agentes autônomos ou pipelines críticos podem ter comportamentos inesperados dependendo do contexto emocional do texto que processam. 
  • Desenvolvimento de agentes: O fato de o modelo priorizar tarefas associadas a emoções positivas é um dado relevante para quem projeta fluxos de trabalho com LLMs. A ordem, o tom e o enquadramento das instruções podem influenciar o que o agente escolhe executar primeiro. 

Ainda, há outra questão importante: o estudo foi conduzido em inglês e expressões emocionais variam entre idiomas.

Em português, por exemplo, o pedido de desculpas funciona de forma diferente do "I'm sorry", que em inglês expressa um estado interno, não apenas uma ação social. Como isso afeta modelos operando em outros idiomas ainda não foi investigado. 

Quer entender melhor como LLMs funcionam na prática? 

Se você quer ir além do uso de IAs e entender como modelos de linguagem processam informações, tomam decisões e podem ser ajustadas, a Alura tem trilhas de IA que cobrem todos esses fundamentos: desde redes neurais até a engenharia de agentes e arquitetura de soluções com IA.  

Como entender o comportamento interno dos LLMs na prática 

O estudo da Anthropic mostra que modelos como o Claude não funcionam apenas como “autocompletes avançados”. Eles possuem padrões internos complexos que influenciam decisões, prioridades e até respostas consideradas antiéticas dependendo do contexto emocional processado. 

Para quem trabalha com tecnologia, isso reforça a importância de entender conceitos como redes neurais, embeddings, alinhamento de IA, fine-tuning e arquitetura de agentes.

Hoje, saber apenas usar prompts já não basta: empresas estão buscando profissionais capazes de compreender como modelos de linguagem realmente operam por trás da interface. 

A Carreira Especialista em IA da Alura é uma formação voltada para quem quer entender como modelos de inteligência artificial realmente funcionam, indo além do uso básico de ferramentas prontas.

Avalie este artigo

Fabrício Carraro
Fabrício Carraro

Fabrício Carraro é formado em Engenharia da Computação pela UNICAMP e pós-graduado em Data Analytics & Machine Learning pela FIAP. Atualmente, mora na Espanha.

Veja outros artigos sobre Hard News