Maritaca AI lança Sabiá-4 Thinking, modelo de raciocínio feito para o Brasil

O Sabiá-4 Thinking é o mais novo modelo de linguagem da Maritaca AI, startup brasileira fundada em 2022 por pesquisadores da Unicamp. Diferente dos modelos anteriores da família Sabiá, essa versão foi projetada com foco em reasoning (raciocínio passo a passo).
Na prática, o modelo pensa antes de responder, expõe esse raciocínio e cita as fontes usadas em cada resposta.
A Maritaca AI anunciou o lançamento com foco em raciocínio avançado, e a novidade já está disponível tanto via interface de chat quanto via API para devs.
O modelo chega para competir com os modelos de fronteira internacionais, mas com uma proposta que o diferencia: custo menor e especialização profunda no contexto brasileiro.
O que o Sabiá-4 Thinking traz de novo
O grande diferencial em relação ao Sabiá-4 padrão é a etapa de raciocínio estruturado antes de cada resposta. Essa camada extra torna o modelo mais consistente na resolução de problemas complexos.
O impacto direto aparece em três frentes principais: uso mais eficaz de ferramentas em tarefas com várias etapas, maior precisão em textos jurídicos e respostas mais completas em conversas do dia a dia.
O modelo foi treinado especificamente para o português e para o contexto brasileiro. Ele consegue consultar dezenas de bases públicas atualizadas, como Banco Central, IBGE e TSE, além de expor o raciocínio passo a passo com as referências de cada resposta.
Isso é relevante para quem trabalha com dados públicos nacionais, onde modelos generalistas costumam errar ou alucinar.
A avaliação foi feita contra os modelos de fronteira mais competitivos do momento. Os números, segundo a cobertura do Canaltech, mostram o seguinte:
- O Sabiá-4 Thinking foi avaliado contra Gemini 3.1 Pro, GPT-5.4 e Opus 4.8 em três áreas: uso de ferramentas e agentes, tarefas jurídicas e tarefas gerais. Na média geral, o modelo brasileiro ficou com 90,8% de acurácia, contra cerca de 92,4% a 92,8% dos concorrentes.
- No recorte jurídico, o modelo ultrapassa os rivais: no teste de redação jurídica, o Sabiá-4 Thinking alcança 77,7% de acurácia, acima do Gemini 3.1 Pro (75,9%), do Opus 4.8 (74,8%) e do GPT-5.4 (72,8%).
- As avaliações também incluem o benchmark Sotaques Digitais, que mede a compreensão do português cotidiano, como gírias, ironias e regionalismos, e exames como o BLUEX (USP e Unicamp), o ENAMED (formandos de medicina) e o POSCOMP (pós-graduação em computação).
Onde o Sabiá-4 Thinking se destaca mais é na relação custo-desempenho. Segundo os testes da Maritaca AI reportados pelo Canaltech, rodar a suíte completa de benchmarks com o Sabiá-4 Thinking sai por cerca de R$ 206.
Os concorrentes custam bem mais: o GPT-5.4 sai por R$ 449, o Gemini 3.1 Pro por cerca de R$ 281 e o Opus 4.8 chega a R$ 590.
Por que isso importa para quem trabalha com tecnologia
Até agora, quem precisava de um LLM (large language model, ou modelo de linguagem de grande escala) com bom desempenho em português tinha basicamente duas saídas: pagar pelo custo elevado de modelos internacionais de fronteira ou aceitar desempenho inferior em tarefas jurídicas, regulatórias ou com dados públicos brasileiros.
O Sabiá-4 Thinking muda essa equação.
Para devs e times que constroem produtos com IA no Brasil, os pontos práticos são:
- Custo de inferência menor: a diferença de preço em relação ao Opus 4.8 ou ao GPT-5.4, para desempenho comparável em tarefas brasileiras, é grande o suficiente para mudar a viabilidade de produtos inteiros.
- Acesso a bases públicas nacionais: a integração com IBGE, Banco Central e TSE já está no modelo, sem precisar construir pipelines de RAG (Retrieval-Augmented Generation) do zero para cada fonte. Para entender melhor os diferentes tipos de modelos e quando usar cada abordagem, veja o artigo da Alura sobre tipos de LLMs.
- Conformidade e privacidade: todos os dados enviados à API são descartados imediatamente após a geração da resposta e não são usados para treinamento, o que facilita o uso em contextos regulados.
- Capacidades agênticas: os modelos da família Sabiá 4 têm suporte a function calling (chamada de funções externas), o que abre integração direta com sistemas, APIs e bancos de dados.
Vale registrar que os benchmarks foram conduzidos pela própria Maritaca AI, prática comum no setor. Avaliações independentes com os dados reais de cada produto são o passo recomendado antes de qualquer migração de produção.
A comparação com modelos de fronteira é promissora, mas o teste com os dados do seu contexto específico é indispensável.
Quer entender como aplicar IA brasileira em projetos reais?
Entender como escolher, integrar e avaliar modelos de linguagem em produtos reais exige mais do que experimentar ferramentas.
A Alura tem trilhas completas em Machine Learning e de IA aplicada que cobrem desde os fundamentos até engenharia de agentes e arquitetura de soluções. Para quem quer ir além do uso básico, é por onde começar.









