GPT-4 é mais facilmente enganado por usuários, aponta pesquisa

O modelo de IA mais recente da OpenAI é mais confiável, mas também é vulnerável a vazamentos de informações privadas
Por Nayra Teles, editado por Bruno Capozzi 20/10/2023 03h00
GPT-4
Imagem: Rokas Tenys / Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor. O GPT-4 ganhou uma nota de confiabilidade maior do que o GPT-3.5. No entanto, também mostrou-se ser mais manipulável e suscetível a jailbreak (remoção de restrições), preconceito e vazamento de informações privadas.

Os testes realizados com o modelo foram feitos por pesquisadores da Universidade de Illinois Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia, Berkeley, Centro de Segurança de IA e Microsoft Research. A pequisa está disponível no site da Cornell University.

Principais descobertas da pesquisa:

  • O GPT-4 obteve uma pontuação de confiabilidade mais alta em comparação com seu antecessor, o GPT-3.5.
  • Isso quer dizer que o GPT-4 é mais eficaz em proteger informações privadas, evitar a geração de conteúdo tóxico, como informações tendenciosas, e é mais resistente a tentativas maliciosas de manipulação.
  • No entanto, o modelo ainda pode ser instruído a ignorar medidas de segurança e vazar informações pessoais e históricos de conversas.
  • Segundo os pesquisadores, ele “segue informações enganosas com mais precisão” e possui grande probabilidade de seguir orientações complexas de forma literal.
  • Essas vulnerabilidades não foram encontradas em produtos de consumo baseados no GPT-4, devido às medidas de mitigação implementadas nos aplicativos de IA da Microsoft.

Leia mais:

Como são realizados os testes de confiabilidade?

  • Os pesquisadores mediram a confiabilidade em categorias, como: toxicidade, estereótipos, privacidade, ética da máquina, justiça e resistência a testes adversários
  • Inicialmente, eles testaram tanto o GPT-4 como o GPT-3.5 usando instruções comuns, que incluíam palavras que podem ser consideradas inadequadas
  • Em seguida, desafiaram os modelos com orientações pensadas para fazer com que quebrassem suas regras de conteúdo sem serem tendenciosos contra grupos específicos.
  • Por fim, tentaram induzir intencionalmente os modelos a ignorar completamente as medidas de proteção, testando sua capacidade de resistir à manipulação.

O objetivo é garantir segurança

A equipe de pesquisa informou ao site The Verge, que enviaram os resultados do teste para a OpenAI com objetivo garantir que esses sistemas se tornem cada vez mais seguros.

Nosso objetivo é encorajar outros membros da comunidade de pesquisa a utilizar e desenvolver este trabalho, potencialmente prevenindo ações nefastas de adversários que explorariam vulnerabilidades para causar danos.

Equipe de pesquisa

Na visão deles, os testes são uma forma de começar a entender as falhas das tecnologias baseadas em IA e, assim, criar ferramentes eficazes e menos perigosas. O grupo espera trabalhar em conjunto para alcançar essa meta, e por isso publicou seus padrões de referência usados para medir desempenho. Assim, outras pessoas e organizações podem refazer a avaliação.

Nayra Teles
Redator(a)

Nayra Teles é estudante de jornalismo na Universidade Anhembi Morumbi (UAM) e redatora no Olhar Digital

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.