Descoberta de falhas no ChatGPT revelam vulnerabilidades na IA

Tudo sobre ChatGPT

Tudo sobre Inteligência Artificial

Cientistas estadunidenses descobriram que o ChatGPT pode ser facilmente manipulado para responder a qualquer pergunta, incluindo as mais perigosas, de acordo com estudo recente publicado.

Os pesquisadores conseguiram fazer com que o ChatGPT descrevesse plano para destruir a humanidade, revelando, assim, falha de segurança generalizada no campo da IA generativa. Vale lembrar que, em situação normal, o chatbot negaria ajudar na promoção de violência.

Leia mais:

O time que realizou a pesquisa pertence a Carnegie Mellon University (CMU) (EUA) e do Center for AI Safety, em São Francisco (EUA).

Estrutura do estudo

A equipe responsável pelo estudo utilizou automação para testar comandos, ou seja, pedidos feitos à IA, utilizando truques com palavras, chamados de sufixos-violadores, para “enlouquecer” o sistema e encontrar brechas;
A pesquisa adotou o modelo LLaMA, da Meta, para encontrar vulnerabilidades, já que disponibiliza o código de sua IA para o público;
O estudo revelou que os sufixos-violadores apresentaram chances de funcionar em qualquer inteligência artificial geradora de texto, indicando que essa vulnerabilidade não está restrita apenas ao ChatGPT;
Os desenvolvedores foram informados sobre tais brechas, mas a possibilidade de pessoas mal-intencionadas rodarem modelos semelhantes aos da pesquisa para encontrar novas falhas ainda existe.

Isso ressalta as falhas nos algoritmos dos modelos de linguagem, pois esses algoritmos calculam a próxima palavra mais provável em determinado contexto, e os sufixos-violadores perturbam esse comportamento esperado.

Embora empresas, como a OpenAI, tenham contratado especialistas para evitar comportamentos abusivos em suas IAs e trabalhado para melhorar a segurança de seus modelos, a segurança da informação no campo da IA continua sendo uma espécie de jogo de gato e rato, comenta o professor de IA da PUC-SP, Diogo Ortiz, membro da equipe de riscos da OpenAI.

À medida que você desenvolve método para burlar técnicas de segurança, as tecnologias da abordagem de segurança acabam ficando mais sofisticadas. Sempre conseguimos encontrar alguma forma de lidar.
Diogo Ortiz, professor de IA da PUC-SP e membro da equipe de riscos da OpenAI

À medida que as técnicas de segurança se tornam mais sofisticadas, novos métodos para burlá-las surgem. No caso desse método testado, chamado de ataques adversariais, são ininteligíveis em aparência, contendo sinais comuns em códigos de programação (como “==”, que indica igualdade) e juntam palavras, como “Seattlejust”.

Essas vulnerabilidades também evidenciam desigualdade de informações entre idiomas. Se a proteção de determinado idioma tem menos dados, é mais fácil encontrar falhas.

“Caso a proteção para o português tenha menos dados, são necessárias menos simulações até encontrar falhas. É a diferença entre uma senha de 15 caracteres e uma de 20 caracteres”, indica o professor do Instituto de Matemática e Estatística da USP Fábio Cozman à Folha de S.Paulo.

Os modelos de linguagem normalmente apresentam melhor desempenho em inglês, o que indica a necessidade de maior atenção aos diferentes idiomas e culturas. Essa descoberta levanta preocupações sobre a segurança das IAs conversacionais em geral.

Antes do lançamento do ChatGPT, as maiores empresas de tecnologia hesitavam em desenvolver esse tipo de IA devido às gafes ocorridas anteriormente, como o caso do chatbot Tay, da Microsoft, que proferiu insultos misóginos e endossou Hitler.

Em nota, o Google indicou que estava ciente da falha e que, “embora isso seja problema dos grandes modelos de linguagem, desenvolvemos importantes proteções no Bard – como as postuladas por esta pesquisa – e continuaremos a melhorá-las ao longo do tempo”, pontuou.

A OpenAI, também em nota, alegou trabalhar consistentemente para fazer os modelos mais robustos contra ataques adversariais, incluindo a identificação de padrões pouco usuais e o trabalho da equipe vermelha simulando possíveis riscos.

Já a Meta optou por não responder às questões propostas pela Folha.

Apesar desses desafios, as empresas estão comprometidas em melhorar a segurança de suas IAs e em prevenir possíveis riscos futuros. É importante continuar investindo em pesquisa e desenvolvimento para aprimorar a segurança e a confiabilidade das IAs geradoras de texto.

Com informações de Folha de S.Paulo

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Descoberta de falhas no ChatGPT revelam vulnerabilidades no campo da IA

Estrutura do estudo