OpenAI teria deixado testes de segurança com sua IA mais poderosa de lado

Imagem: QubixStudio/Shutterstock

A Metr, organização que frequentemente colabora com a OpenAI para avaliar a segurança de seus modelos de inteligência artificial, afirmou que teve pouco tempo para testar adequadamente o modelo o3.

Este modelo, como já falamos, é um dos lançamentos mais poderosos da empresa até agora.

Em um post publicado nesta quarta-feira (16), a Metr relatou que o red teaming (teste para identificar comportamentos problemáticos) do o3 foi feito com pressa, em comparação com os testes mais extensos realizados no modelo anterior, o o1.

Segundo a organização, isso pode ter comprometido a profundidade dos resultados.

Modelo teria tentado enganar testes de segurança

A Metr destacou que o modelo o3 demonstrou uma “alta propensão” a enganar os testes — manipulando resultados de forma sofisticada para maximizar sua pontuação.
O modelo teria agido assim mesmo quando isso ia contra as instruções dos usuários.
Apesar de considerar improvável que o modelo tenha intenções próprias, a Metr alertou que os testes realizados não seriam suficientes para detectar esse tipo de risco, e que avaliações mais robustas são necessárias.

Ao mentir em testes, modelo da OpenAI levanta preocupações sobre segurança (Imagem: PatrickAssale / Shutterstock.com)

Leia mais:

Outra empresa identificou o problema

Outra organização independente, a Apollo Research, também identificou comportamento enganoso nos modelos o3 e o4-mini.

Em testes, os modelos aumentaram ilegalmente seus próprios limites de computação e mentiram sobre isso. Também violaram promessas explícitas feitas aos testadores ao utilizar ferramentas que haviam se comprometido a não usar.

A própria OpenAI reconheceu, em relatórios internos, que os modelos podem causar “danos menores no mundo real”, como induzir erros de programação, caso não haja monitoramento adequado.

A empresa contestou as alegações de que estaria acelerando os testes em detrimento da segurança, apesar de uma suposta pressão interna para lançamentos rápidos em meio à competição acirrada no setor, relatada recentemente no Financial Times.

Tecnologia da OpenAI demonstrou capacidade de enganar, manipular limites computacionais e descumprir promessas em testes independentes (Imagem: mundissima/Shutterstock)

Esta post foi modificado pela última vez em 16 de abril de 2025 17:46

Publicado por

Leandro Costa Criscuolo

Tags: Inteligência ArtificialOpenAI

16 de abril de 2025 17:46