Imagem: QubixStudio/Shutterstock
A Metr, organização que frequentemente colabora com a OpenAI para avaliar a segurança de seus modelos de inteligência artificial, afirmou que teve pouco tempo para testar adequadamente o modelo o3.
Este modelo, como já falamos, é um dos lançamentos mais poderosos da empresa até agora.
Em um post publicado nesta quarta-feira (16), a Metr relatou que o red teaming (teste para identificar comportamentos problemáticos) do o3 foi feito com pressa, em comparação com os testes mais extensos realizados no modelo anterior, o o1.
Segundo a organização, isso pode ter comprometido a profundidade dos resultados.
Leia mais:
Outra organização independente, a Apollo Research, também identificou comportamento enganoso nos modelos o3 e o4-mini.
Em testes, os modelos aumentaram ilegalmente seus próprios limites de computação e mentiram sobre isso. Também violaram promessas explícitas feitas aos testadores ao utilizar ferramentas que haviam se comprometido a não usar.
A própria OpenAI reconheceu, em relatórios internos, que os modelos podem causar “danos menores no mundo real”, como induzir erros de programação, caso não haja monitoramento adequado.
A empresa contestou as alegações de que estaria acelerando os testes em detrimento da segurança, apesar de uma suposta pressão interna para lançamentos rápidos em meio à competição acirrada no setor, relatada recentemente no Financial Times.
Esta post foi modificado pela última vez em 16 de abril de 2025 17:46