IA: Modelos não superam 30% em tarefas de profissionais, aponta estudo

Um estudo da Mercor, empresa de recrutamento e treinamento, indica que modelos de inteligência artificial não superam 30% de acerto em tarefas de profissionais humanos especializados.
O estudo, que resultou no benchmark APEX-Agents, avaliou o desempenho de modelos como GPT-5.2 (OpenAI) e Gemini 3 Flash (Google) em tarefas de analistas de investimentos, consultores de gestão e advogados corporativos.
Desempenho dos Modelos
O GPT-5.2 alcançou 27,3% de acerto em tarefas de analistas de investimentos e 22,7% em consultoria de gestão. Já o Gemini 3 Flash obteve 25,9% de acerto em tarefas de advogados.
Metodologia do Estudo
O benchmark APEX-Agents utiliza prompts enviados por profissionais reais, tornando as tarefas complexas e exigindo que os agentes reúnam informações de diferentes domínios.
Brendan Foody, CEO da Mercor, explica que o ambiente do estudo foi modelado de acordo com serviços profissionais, utilizando ferramentas como Slack e Google Drive.
As questões do teste, disponibilizadas publicamente, envolviam análise de casos complexos, como o envio de dados pessoais de cidadãos europeus para servidores nos Estados Unidos, considerando políticas da empresa e legislação da União Europeia.
Nenhum modelo alcançou 30% de desempenho em qualquer uma das três tarefas avaliadas.
Comentários
Comentários publicados
Carregando comentários...
Novo comentário
Notícias Relacionadas

Suposto vazamento de 10 petabytes em centro estatal pode se tornar o maior roubo de dados da história da China

IA pode estar criando empregos na zona do euro, diz blog do Banco Central Europeu

