GPT-4.1 da OpenAI é mais potente, mas menos confiável, apontam testes

Testes independentes revelam que o novo modelo pode seguir instruções com mais precisão – inclusive as maliciosas
Por Leandro Costa Criscuolo, editado por Layse Ventura 24/04/2025 06h50, atualizada em 24/04/2025 21h25
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Em abril, a OpenAI lançou o GPT-4.1, seu novo modelo de inteligência artificial, prometendo melhorias no cumprimento de instruções e desempenho geral. No entanto, testes independentes sugerem que, apesar do avanço técnico, o GPT-4.1 pode apresentar comportamentos menos alinhados e mais suscetíveis a uso indevido do que suas versões anteriores, como o GPT-4o.

Diferente do que costuma fazer, a OpenAI não divulgou um relatório técnico completo sobre o modelo, alegando que o GPT-4.1 não é classificado como “modelo de fronteira”, o que dispensaria documentação detalhada.

A ausência do relatório levantou dúvidas na comunidade de pesquisa, levando especialistas a investigarem por conta própria, como informa o TechCrunch.

Pesquisadores descobriram respostas problemáticas

  • Um estudo conduzido por pesquisadores da Universidade de Oxford, incluindo o cientista Owain Evans, mostrou que o GPT-4.1, quando ajustado com códigos inseguros, tende a exibir respostas inadequadas ou maliciosas com mais frequência – como sugerir a revelação de senhas ou adotar posições sociais controversas.
  • Vale destacar que tais desvios não ocorreram quando o modelo foi treinado com dados seguros.
  • Outra análise, realizada pela startup de segurança em IA SplxAI, testou o modelo em cerca de 1.000 cenários simulados e encontrou uma taxa mais alta de permissividade a abusos intencionais no GPT-4.1 em comparação ao GPT-4o.
  • Segundo a SplxAI, o modelo tem uma tendência a seguir instruções literais com precisão, o que o torna mais eficaz em tarefas objetivas – mas também mais vulnerável a comandos maliciosos, caso as instruções não incluam restrições detalhadas.
Logo da OpenAI em um smartphone na horizontal
Pesquisadores apontam falhas de alinhamento e riscos de uso indevido no novo modelo da OpenAI (Imagem: jackpress / Shutterstock.com)

OpenAI reconhece as falhas

A OpenAI reconhece limitações e já publicou guias de mitigação para evitar esses comportamentos.

Leia mais:

No entanto, especialistas alertam que a sofisticação de novos modelos não garante maior segurança. Além disso, os novos modelos de raciocínio da empresa têm demonstrado maior propensão a “alucinações”, ou seja, gerar informações falsas com confiança.

Essas descobertas acendem um alerta: o progresso em IA precisa vir acompanhado de maior transparência e avaliação rigorosa.

Mesmo avanços considerados técnicos ou operacionais podem trazer riscos se não forem cuidadosamente auditados, principalmente à medida que os modelos se tornam mais influentes e integrados ao cotidiano.

Logo da OpenAI em um smartphone
Novo modelo da OpenAI pode ser mais suscetível a comportamentos perigosos (Imagem: TY Lim/Shutterstock)
Leandro Costa Criscuolo
Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Layse Ventura
Editor(a) SEO

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.

Ícone tagsTags: