GPT-4.1 da OpenAI é mais potente, mas menos confiável, apontam testes

Tudo sobre OpenAI

Em abril, a OpenAI lançou o GPT-4.1, seu novo modelo de inteligência artificial, prometendo melhorias no cumprimento de instruções e desempenho geral. No entanto, testes independentes sugerem que, apesar do avanço técnico, o GPT-4.1 pode apresentar comportamentos menos alinhados e mais suscetíveis a uso indevido do que suas versões anteriores, como o GPT-4o.

Diferente do que costuma fazer, a OpenAI não divulgou um relatório técnico completo sobre o modelo, alegando que o GPT-4.1 não é classificado como “modelo de fronteira”, o que dispensaria documentação detalhada.

A ausência do relatório levantou dúvidas na comunidade de pesquisa, levando especialistas a investigarem por conta própria, como informa o TechCrunch.

Pesquisadores descobriram respostas problemáticas

Um estudo conduzido por pesquisadores da Universidade de Oxford, incluindo o cientista Owain Evans, mostrou que o GPT-4.1, quando ajustado com códigos inseguros, tende a exibir respostas inadequadas ou maliciosas com mais frequência – como sugerir a revelação de senhas ou adotar posições sociais controversas.
Vale destacar que tais desvios não ocorreram quando o modelo foi treinado com dados seguros.
Outra análise, realizada pela startup de segurança em IA SplxAI, testou o modelo em cerca de 1.000 cenários simulados e encontrou uma taxa mais alta de permissividade a abusos intencionais no GPT-4.1 em comparação ao GPT-4o.
Segundo a SplxAI, o modelo tem uma tendência a seguir instruções literais com precisão, o que o torna mais eficaz em tarefas objetivas – mas também mais vulnerável a comandos maliciosos, caso as instruções não incluam restrições detalhadas.

Pesquisadores apontam falhas de alinhamento e riscos de uso indevido no novo modelo da OpenAI (Imagem: jackpress / Shutterstock.com)

OpenAI reconhece as falhas

A OpenAI reconhece limitações e já publicou guias de mitigação para evitar esses comportamentos.

Leia mais:

No entanto, especialistas alertam que a sofisticação de novos modelos não garante maior segurança. Além disso, os novos modelos de raciocínio da empresa têm demonstrado maior propensão a “alucinações”, ou seja, gerar informações falsas com confiança.

Essas descobertas acendem um alerta: o progresso em IA precisa vir acompanhado de maior transparência e avaliação rigorosa.

Mesmo avanços considerados técnicos ou operacionais podem trazer riscos se não forem cuidadosamente auditados, principalmente à medida que os modelos se tornam mais influentes e integrados ao cotidiano.

Novo modelo da OpenAI pode ser mais suscetível a comportamentos perigosos (Imagem: TY Lim/Shutterstock)