Tecnologia

IA: Modelos não superam 30% em tarefas de profissionais, aponta estudo

EmpreendaNews

23 de janeiro de 2026

IA: Modelos não superam 30% em tarefas de profissionais, aponta estudo

Compartilhar:WhatsApp

Ouvir notícia

Um estudo da Mercor, empresa de recrutamento e treinamento, indica que modelos de inteligência artificial não superam 30% de acerto em tarefas de profissionais humanos especializados.

O estudo, que resultou no benchmark APEX-Agents, avaliou o desempenho de modelos como GPT-5.2 (OpenAI) e Gemini 3 Flash (Google) em tarefas de analistas de investimentos, consultores de gestão e advogados corporativos.

Desempenho dos Modelos

O GPT-5.2 alcançou 27,3% de acerto em tarefas de analistas de investimentos e 22,7% em consultoria de gestão. Já o Gemini 3 Flash obteve 25,9% de acerto em tarefas de advogados.

Metodologia do Estudo

O benchmark APEX-Agents utiliza prompts enviados por profissionais reais, tornando as tarefas complexas e exigindo que os agentes reúnam informações de diferentes domínios.

Brendan Foody, CEO da Mercor, explica que o ambiente do estudo foi modelado de acordo com serviços profissionais, utilizando ferramentas como Slack e Google Drive.

As questões do teste, disponibilizadas publicamente, envolviam análise de casos complexos, como o envio de dados pessoais de cidadãos europeus para servidores nos Estados Unidos, considerando políticas da empresa e legislação da União Europeia.

Nenhum modelo alcançou 30% de desempenho em qualquer uma das três tarefas avaliadas.

Compartilhar:WhatsApp

Discussão