Google lança Gemini 3.5 Flash com foco em agentes de IA

Fabrício Carraro
Fabrício Carraro

Compartilhe

Avalie este artigo

4 minutos de leitura

O Google apresentou o Gemini 3.5 Flash na Google I/O 2026, em 19 de maio de 2026, em Mountain View, na Califórnia. O modelo é o primeiro da nova família Gemini 3.5. 3

Na prática, já está disponível para devs via API e para o público geral no aplicativo Gemini e no AI Mode do Google Search.

O lançamento inverte uma lógica estabelecida no mercado: o 3.5 Flash supera o Gemini 3.1 Pro em benchmarks de coding e tarefas agênticas.

Na prática, o modelo roda cerca de quatro vezes mais rápido que modelos comparáveis. Isso inverte a hierarquia histórica entre os tiers Pro e Flash nas áreas que mais importam para quem desenvolve.

O que o Google anunciou no I/O

Segundo o post oficial do Google DeepMind, o Gemini 3.5 Flash foi projetado para executar fluxos de trabalho agênticos de longa duração (long-horizon agentic tasks). Na prática, o modelo consegue planejar, construir e iterar sobre problemas em paralelo, e os resultados nos principais benchmarks, segundo o Google, são:

  • Terminal-Bench 2.1 (coding): 76,2%, contra 66,1% do Claude Opus 4.7.
  • MCP Atlas (confiabilidade em uso de ferramentas): 83,6%.
  • GDPval-AA (tarefas agênticas reais): 1656 Elo.
  • CharXiv Reasoning (compreensão multimodal): 84,2%.

O Google não destacou uma regressão relevante: no benchmark MRCR v2 com janela de 128 mil tokens, o 3.5 Flash caiu 7,6 pontos percentuais em relação ao Gemini 3.1 Pro.

Na prática, o índice recuou de 84,9% para 77,3%. Para quem constrói sistemas de RAG (recuperação aumentada por geração) sobre documentos extensos, esse número importa.

Do lado da infraestrutura, o modelo chega integrado ao Google Antigravity, plataforma de desenvolvimento agêntico do Google. O ambiente combina cache, orquestração paralela e roteamento de prompts. Isso faz o 3.5 Flash rodar até 12 vezes mais rápido do que via loop de API genérico.

A versão Gemini 3.5 Pro, com foco em raciocínio profundo, está confirmada para junho de 2026.

Por que isso importa para quem trabalha com tecnologia

Para devs que já têm pipelines com modelos de linguagem, a chegada do 3.5 Flash coloca uma decisão concreta na mesa. A recomendação de quem acompanhou o lançamento de perto é atualizar o roteamento de produção para o gemini-3.5-flash em tarefas de coding e agentes.

Mas a migração para o Gemini 3.5 Pro, voltado a raciocínio mais profundo, vale segurar até o lançamento previsto para o mês que vem.

O modelo também muda a matemática de custo para quem opera em escala. A versão com raciocínio estendido custa US$ 0,50 por milhão de tokens de entrada e US$ 3,00 por milhão de tokens de saída. Isso significa menos da metade do custo de modelos frontier comparáveis, segundo o Google.

Dois pontos práticos para quem avalia adoção:

  • Tarefas agênticas e coding: o 3.5 Flash é hoje a escolha mais eficiente em custo e velocidade para fluxos com subagentes, chamadas de ferramentas e geração de código, onde supera o GPT-5.5 em benchmarks de uso de ferramentas como o MCP Atlas, apesar de o GPT-5.5 ainda liderar em benchmarks de raciocínio pesado.
  • Documentos longos em produção: a regressão no benchmark de contexto de 128 mil tokens é um sinal de atenção para pipelines que processam contratos, relatórios ou bases de conhecimento extensas.

Quer entender melhor como trabalhar com agentes de IA na prática?

Se você não quer ficar para trás nesse cenário de constante mudanças e atualizações, além de construir pipelines com modelos como o Gemini 3.5 Flash, orquestrar subagentes e tomar decisões de arquitetura com LLMs, a Alura tem trilhas de IA aplicada para isso.

Elas cobrem do uso básico de APIs até engenharia de agentes autônomos em produção.

Avalie este artigo

Fabrício Carraro
Fabrício Carraro

Fabrício Carraro é formado em Engenharia da Computação pela UNICAMP e pós-graduado em Data Analytics & Machine Learning pela FIAP. Atualmente, mora na Espanha.

Veja outros artigos sobre Hard News