OpenAI afirma: modelos de IA já fazem várias tarefas humanas no mesmo nível

Benchmark batizado de GDPval avaliou esse e um concorrente contra funcionários de 44 setores da indústria
Rodrigo Mozelli25/09/2025 22h52, atualizada em 26/09/2025 21h16
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Nesta quinta-feira (25), a OpenAI liberou novo benchmark que testa o desempenho dos modelos de inteligência artificial (IA) da desenvolvedora do ChatGPT em comparação a trabalhadores humanos. O teste foi realizado em uma ampla gama de setores e indústrias.

Ofertas

Agenda 2026 Coleção Happy Com Capa Dura Círculos Colors
Vendido por Amazon
Agenda 2026 Coleção Happy Com Capa Dura Círculos Colors
Por R$ 45,90
Suporte para 2 Controles de PlayStation 5 PS5, Apoio de Mesa Gamer, Modelo VN
Vendido por Amazon
Suporte para 2 Controles de PlayStation 5 PS5, Apoio de Mesa Gamer, Modelo VN
De: R$ 39,92
Por: R$ 37,92
Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
Vendido por Amazon
Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
De: R$ 27,90
Por: R$ 22,59
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
Vendido por Amazon
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
De: R$ 67,44
Por: R$ 59,95
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
Vendido por Amazon
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
De: R$ 1.049,00
Por: R$ 799,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
De: R$ 499,90
Por: R$ 349,90
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
Vendido por Amazon
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
De: R$ 2.399,00
Por: R$ 2.159,00
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
Vendido por Amazon
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
De: R$ 88,00
Por: R$ 45,00
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
Vendido por Amazon
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
De: R$ 399,00
Por: R$ 379,00
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
Vendido por Amazon
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
De: R$ 1.629,90
Por: R$ 1.239,90
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Vendido por Amazon
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
De: R$ 1.179,00
Por: R$ 943,20
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
Vendido por Amazon
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
De: R$ 999,00
Por: R$ 798,99
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
Vendido por Amazon
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
De: R$ 329,90
Por: R$ 205,91
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
Vendido por Amazon
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
De: R$ 599,90
Por: R$ 476,10
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
Vendido por Amazon
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
De: R$ 1.199,00
Por: R$ 1.139,05
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Vendido por Amazon
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
De: R$ 169,90
Por: R$ 139,90
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
De: R$ 149,90
Por: R$ 119,90
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
Vendido por Amazon
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
De: R$ 699,00
Por: R$ 398,99
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
Vendido por Amazon
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
De: R$ 109,90
Por: R$ 79,90
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
Vendido por Amazon
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
De: R$ 299,90
Por: R$ 199,90

O teste, chamado de GDPval, trata-se de uma tentativa inicial de compreender o quão perto seus sistemas estão de superar os humanos em trabalhos economicamente valorizados, algo peça-chave para a missão da empresa de Sam Altman para chegar na tão sonhada inteligência artificial geral (IAG).

Segundo a startup, o GPT-5 e o Claude Opus 4.1, da Anthropic, “estão chegando perto da qualidade laboral executada pelos especialistas da indústria”.

gpt-5
Poder computacional do GPT-5 foi medido contra a eficiência humana (Imagem: PhotoGranary02/Shutterstock)

Contudo, como frisa o TechCrunch, isso não quer dizer que os modelos de IA da Open AI nos substituirão em nossos postos de trabalho logo de cara.

Apesar de previsões de CEOs do setor de que a IA vai tomar os trabalhos das pessoas em poucos anos, a dona do ChatGPT admite que o GDPval, atualmente, cobre limitada quantidade de tarefas laborais realizadas por nós no dia a dia. Mas esta é uma das mais recentes formas pelas quais a OpenAI está medindo o progresso de sua IA rumo a este marco.

Como é balizado o teste de benchmark da OpenAI

  • O GDPval é baseado em nove setores da indústria que mais contribuem com o Produto Interno Bruto (PIB) dos Estados Unidos;
  • Isso inclui áreas, como saúde, financeiro, manufatureiro e governo;
  • O teste analisa o desempenho de uma IA em 44 ocupações selecionadas entre os setores citados, indo desde engenheiros de software a enfermeiras e jornalistas;
  • Na primeira versão do teste, batizada de GDPval-v0, a OpenAI pediu que profissionais experientes comparassem relatórios feitos por IA com os produzidos por humanos e, depois, que escolhessem os melhores;
  • Um exemplo: um dos prompts solicitou que banqueiros de investimentos criassem um cenário competitivo para a mobilidade de último quilômetro (campo fundamental da cadeia de suprimentos) e os comparassem com os da IA;
  • Entao, a startup calculou a média da “taxa de vitória” de uma IA em comparação com os relatórios de humanos em todas 44 funções testadas.

Gráfico de barras com a comparação realizada pela OpenAI
Gráfico compara vários modelos de IA com trabalhadores humanos; Claude foi o que se saiu melhor (Imagem: Reprodução/OpenAI)

No teste do GPT-5-high — versão aprimorada do GPT-5 com mais poder computacional —, a OpenAI afirma que o modelo foi classificado como igual ou melhor que especialistas dos setores avaliados em 40,6% do tempo.

Já o Claude Opus 4.1, da Anthropic, foi classificado com melhor ou igual aos especialistas humanos em 49% das vezes, sendo, portanto, superior ao de sua concorrente. Contudo, a OpenAI opina que a porcentagem do Claude foi superior por conta de o modelo da Anthropic preferir criar gráficos mais agradáveis do que focar no puro desempenho.

Leia mais:

Celular com logotipo do Claude na tela na frente de tela maior exibindo letreiro no qual está escrito Anthropic
Claude Opus 4.1, da rival Anthropi, também foi avaliado pela OpenAI (Imagem: gguy/Shutterstock)

Futuro dessas avaliações

Mas o TechCrunch lembra, contudo, que muitos profissionais humanos fazem muito além do que apenas enviar relatórios para a chefia — que é o que o GDPval-v0 foi criado para testar. Sendo assim, a OpenAI reconhece essa situação e diz estar planejando criar testes mais robustos e que possam avaliar mais setores da indústria e fluxos de trabalho.

Ainda assim, expõe o portal, a indústria enxerga o progresso do GDPval como notável. Isso pode ser visto em entrevista do site com o economista-chefe da OpenAI, Dr. Aaron Chatterji, que afirmou que os resultados do teste sugerem que as pessoas nas funções analisadas podem, agora, usar os modelos de IA nessas tarefas, otimizando seu tempo e utilizando-o em tarefas mais importantes.

“[Por conta de] o modelo estar ficando bom em algumas dessas tarefas, as pessoas que atuam nessas funções podem, agora, usar o modelo, incrementando conforme sua capacidade melhora, de modo a diminuir a carga de trabalho e, potencialmente, mexer com coisas de maior valor”, disse.

Já a chefe das avaliações, Tejal Patwardhan, disse ao TechCrunch que ela foi encorajada pelo nível de progresso do GDPval. O modelo GPT-4, também da OpenAI, marcou apenas 13,7% (vence e empata quando enfrenta humanos) — ele foi lançado há cerca de 15 meses. Já o GPT-5 marca quase o triplo disso, marca que Patwardhan espera permanecer.

Outros benchmarks que estudam IA vs. humanos

A indústria do Vale do Silício possui várias opções de benchmarks que podem medir o progresso de suas IAs e avaliar se um dado modelo é o estado da arte (revisão sistemática e crítica da produção científica sobre um determinado tema, que visa identificar o nível mais alto de conhecimento alcançado em uma área até um dado momento). Entre os principais, estão o AIME 2025 (que testa problemas matemáticos competitivos) e o GPQA Diamond (que avalia questões científicas ao nível PhD).

Todavia, várias IAs estão próximas da saturação nesses benchmarks, e muitos pesquisadores do ramo citaram a necessidade de se criar melhores testes que possam medir a proficiência dos modelos em tarefas realizadas no mundo real.

Benchmarks como o GDPval têm o potencial de serem cada vez mais importantes nesse debate, enquanto a OpenAI apoia a ideia de que seus modelos de IA têm valor para uma grande quantidade de setores.

Dedo robótico tocando um dedo humano
Desenvolvedora do ChatGPT defende que seus modelos de IA são suficientemente valiosos para vários setores da sociedade (Imagem: Summit Art Creations/Shutterstock)

Só que, talvez, a startup — que visa deixar de ser uma organização sem fins lucrativos, algo que vem sendo tema de polêmica com outros grandes players da indústria — precise criar um teste que ateste, sem sombra de dúvidas, que suas IAs conseguem nos superar.

Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.