Estudo de Stanford: IA supera professores de direito em avaliação cega

A Stanford Law School publicou um estudo liderado pelo professor Julian Nyarko que testou se modelos de linguagem conseguiriam atuar como tutores eficazes em cursos de direito contratual. As respostas geradas por IA foram comparadas com as de professores humanos em avaliação cega.
O resultado foi direto: em quase 3.000 comparações anonimizadas, professores preferiram as respostas de IA em 75% dos confrontos diretos.
O que o estudo da Stanford descobriu
A pesquisa envolveu 16 professores de 14 faculdades de direito americanas, que avaliaram perto de 3.000 respostas a questões de direito contratual. O ponto central do desenho metodológico era a cegueira: os avaliadores não sabiam se cada resposta vinha de um colega humano ou de uma IA.
Os participantes criaram 40 questões realistas de direito contratual, escreveram suas próprias respostas e depois avaliaram sem saber a origem de cada uma. Os modelos testados foram o Gemini 2.5 Pro e o NotebookLM, com taxas de vitória entre 75,33% e 75,92%.
Raciocínio jurídico raramente tem respostas certas ou erradas: direito exige julgamento, raciocínio matizado e capacidade de lidar com ambiguidade. Os autores escolheram o direito exatamente por isso, por ser um campo que vai além da memorização de fatos, segundo o paper.
Além da preferência geral, outros dados chamaram atenção:
- Professores marcaram respostas de IA como pedagogicamente prejudiciais em apenas 3,5% dos casos, contra 12% nas respostas escritas por colegas humanos.
- A IA venceu 75% dos confrontos diretos nas quase 3.000 comparações realizadas em avaliação cega.
- O estudo envolveu 16 professores de 14 faculdades de direito dos Estados Unidos.
Como Alejandro Salinas, primeiro autor do estudo, declarou:
"Our study shifts attention to what AI tutoring can contribute to learning in judgment-rich fields like law."
Por que isso importa para quem trabalha com tecnologia
O debate sobre IA em educação costuma girar em torno de áreas com respostas objetivas: matemática, programação, ciências exatas.
Este estudo quebra essa lógica ao colocar LLMs (modelos de linguagem de grande escala) num campo em que o desempenho humano sempre foi difícil de medir. Mais difícil ainda de superar.
O debate sobre o impacto da IA no mercado de trabalho e na educação ganha agora evidência empírica em áreas de julgamento complexo.
Para devs e quem trabalha com produtos de IA, há implicações práticas concretas:
- Aplicações em áreas de julgamento complexo: os resultados abrem espaço para LLMs em produtos jurídicos, médicos e educacionais, onde a qualidade da resposta não é binária.
- Calibração de respostas: o estudo usou controle de comprimento e estrutura para garantir comparações justas, uma boa referência de design para quem constrói avaliações de LLMs em produtos reais.
- Sinal de qualidade pedagógica: a baixa taxa de respostas marcadas como prejudiciais (3,5% contra 12%) sugere que modelos bem configurados podem ser mais consistentes que humanos em contextos de tutoria.
Vale um ponto de atenção: o estudo testou modelos específicos (Gemini 2.5 Pro e NotebookLM) em direito contratual americano. Extrapolar os resultados para qualquer LLM em qualquer área jurídica exige cautela, especialmente em sistemas legais diferentes, como o brasileiro.
Quer entender como LLMs raciocinam e como aplicá-los em contextos que exigem julgamento complexo?
Se você busca aplicabilidade de IA na área de Direito, temos um artigo onde abordamos ferramentas de IA para uso de advogados.
Porém, se você quer ir além do uso básico e entender como modelos de linguagem chegam às respostas que chegam, a Alura tem trilhas completas de IA aplicada. São trilhas para quem quer construir produtos e soluções com IA de verdade, incluindo como avaliá-los em cenários que exigem julgamento.









