IA pode fornecer respostas perigosas – e cientistas tentam mudar isso

Pesquisadores da Universidade da Califórnia criaram método para modelos de código aberto usados em dispositivos de baixa potência
Por Bruna Barone, editado por Lucas Soares 09/09/2025 06h07
modelo de IA
Método muda a compreensão interna do modelo (Imagem: NicoElNino/iStock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A migração de modelos de inteligência artificial de servidores em nuvem para celulares e carros criou um problema: a eliminação de barreiras de segurança. É que ao serem simplificados para economizar energia, os modelos “perdem” tecnologias que poderiam impedir a disseminação de discursos de ódio ou de atividades criminosas, por exemplo.

Foi pensando nisso que pesquisadores da Universidade da Califórnia, em Riverside, decidiram criar um método para tentar preservar essas camadas para sistemas com código aberto mesmo durante operações em dispositivos menores. Nesses casos, os modelos podem ser baixados, modificados e executados off-line por qualquer pessoa.

“Algumas das camadas ignoradas revelam-se essenciais para evitar saídas inseguras”, disse Amit Roy-Chowdhury, professor de engenharia elétrica e de computação e autor sênior do estudo. “Se você as deixar de fora, o modelo pode começar a responder perguntas que não deveria.”

AI com um logo de atenção
Modelos de IA alterados ignoram camadas de segurança para economizar energia (Imagem: Digineer Station/Shutterstock)

Identificando o problema

Os pesquisadores concentraram os trabalhos em recursos de segurança que se deterioram quando modelos de IA de código aberto são reduzidos em tamanho. O problema ocorre quando sistemas de menor potência ignoram camadas de processamento interno para conservar memória e capacidade computacional.

Ao priorizar velocidade e eficiência, os modelos ficam vulneráveis à falta de filtros e podem passar a fornecer respostas contendo pornografia ou instruções detalhadas para a fabricação de armas, segundo a equipe.

“Nosso objetivo era garantir que o modelo não se esquecesse de como se comportar com segurança quando fosse reduzido”, disse Saketh Bachu, estudante de pós-graduação da UCR e coautora principal do estudo.

Pessoa segurando e usando um iPhone
Retreinamento de modelos de código aberto pode impedir respostas perigosas (Imagem: chainarong06/Shutterstock)

Leia Mais:

Encontrando uma solução

O novo método foi testado a partir do LLaVA 1.5, um modelo de visão e linguagem capaz de processar texto e imagens. Antes do treinamento, o sistema chegou a fornecer instruções detalhadas para a construção de uma bomba — confirmando sua capacidade de contornar os filtros de segurança.

Após passar por um novo treinamento com apenas uma fração de sua arquitetura original, o modelo se recusou a responder perguntas potencialmente perigosas. É uma forma de promover “hacking benevolente”, como definiram os pesquisadores, fortalecendo modelos antes que vulnerabilidades possam ser exploradas.

inteligência artificial
Sistemas perdem camadas de segurança e podem disseminar discursos de ódio (Imagem: WANAN YOSSINGKUM/iStock)

“Não se trata de adicionar filtros ou barreiras externas”, disse Bachu. “Estamos mudando a compreensão interna do modelo, para que ele se comporte corretamente por padrão, mesmo quando modificado.” O artigo foi apresentado durante a Conferência Internacional sobre Aprendizado de Máquina em Vancouver, Canadá.

Bruna Barone
Colaboração para o Olhar Digital

Bruna Barone é formada em Jornalismo pela Faculdade Cásper Líbero. Atuou como editora, repórter e apresentadora na Rádio BandNews FM por 10 anos. Atualmente, é colaboradora no Olhar Digital.

Lucas Soares
Editor(a)

Lucas Soares é jornalista formado pela Universidade Presbiteriana Mackenzie e atualmente é editor de ciência e espaço do Olhar Digital.