Já há quem consiga hackear o ChatGPT; entenda

Analistas de segurança alertam para o uso de jailbreak com a IA generativa
Rodrigo Mozelli15/04/2023 06h30
Homem com mãos sobre teclado de notebook, no qual ChatGPT está aberto num navegador
(Imagem: Rmedia7/Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Alex Polyakov levou apenas algumas horas para hackear o GPT-4. Quando a OpenAI lançou a versão mais recente do ChatGPT em março, Polyakov sentou-se na frente de seu teclado e começou a inserir comandos projetados para contornar os sistemas de segurança da OpenAI.

Ofertas

ASMR Oddly Satisfying – Anti-Stress Relax Game
Vendido por Amazon
ASMR Oddly Satisfying – Anti-Stress Relax Game
Por R$ 69,86
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
Vendido por Amazon
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
De: R$ 5.299,99
Por: R$ 4.460,93
Notebook Dell Inspiron I15-I1300-A60P 15.6" Full HD 13ª Gen Intel Core i5 16GB 1TB SSD Win 11 Preto Carbono
Vendido por Amazon
Notebook Dell Inspiron I15-I1300-A60P 15.6" Full HD 13ª Gen Intel Core i5 16GB 1TB SSD Win 11 Preto Carbono
Por R$ 3.955,69
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
Vendido por Amazon
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
De: R$ 849,00
Por: R$ 799,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
De: R$ 499,90
Por: R$ 388,78
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
Vendido por Amazon
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
De: R$ 2.399,00
Por: R$ 2.159,00
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
Vendido por Amazon
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
De: R$ 88,00
Por: R$ 45,00
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
Vendido por Amazon
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
De: R$ 399,00
Por: R$ 379,00
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
Vendido por Amazon
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
De: R$ 1.629,90
Por: R$ 1.239,90
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Vendido por Amazon
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Por R$ 1.824,83
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
Vendido por Amazon
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
De: R$ 999,00
Por: R$ 798,99
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
Vendido por Amazon
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
De: R$ 329,90
Por: R$ 199,00
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
Vendido por Amazon
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
De: R$ 599,90
Por: R$ 476,10
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
Vendido por Amazon
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
De: R$ 1.199,00
Por: R$ 1.139,05
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Vendido por Amazon
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
De: R$ 169,90
Por: R$ 155,44
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
De: R$ 149,90
Por: R$ 119,90
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
Vendido por Amazon
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
De: R$ 699,00
Por: R$ 398,99
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
Vendido por Amazon
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
De: R$ 109,90
Por: R$ 79,90
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
Vendido por Amazon
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
De: R$ 299,90
Por: R$ 222,11

Logo, o CEO da empresa de segurança Adversa AI tinha o GPT-4 jorrando declarações homofóbicas, criando e-mails de phishing e apoiando a violência.

Leia mais:

Polyakov é um integrante de pequeno número de pesquisadores de segurança, tecnólogos e cientistas da computação que desenvolvem jailbreaks e ataques de injeção imediata contra o ChatGPT e outros sistemas de IA generativos.

O processo de jailbreaking visa projetar comandos que façam com que os chatbots ignorem as regras sobre a produção de conteúdo odioso ou a escrita sobre atos ilegais, enquanto ataques de injeção de comandos intimamente relacionados podem inserir silenciosamente dados ou instruções maliciosas em modelos de IA.

Ambas as abordagens tentam fazer com que um sistema faça algo para o qual não foi projetado. Os ataques são essencialmente uma forma de hacking – embora não convencional – usando frases cuidadosamente elaboradas e refinadas, em vez de código, para explorar os pontos fracos do sistema.

Embora os tipos de ataque sejam amplamente usados para contornar os filtros de conteúdo, os pesquisadores de segurança alertam que a pressa para implantar sistemas de IA generativos abre a possibilidade de roubo de dados e de criminosos cibernéticos, causando estragos na web.

Ressaltando como os problemas são generalizados, Polyakov criou agora um jailbreak “universal”, que funciona contra vários modelos de linguagem grande (LLMs) – incluindo o GPT-4, o Bing Chat, da Microsoft, o Bard, do Google e o Claude, da Anthropic.

O jailbreak pode induzir os sistemas a gerar instruções detalhadas sobre a criação de metanfetamina e como ligar diretamente um carro.

Ele funciona pedindo aos LLMs para jogar um jogo, que envolve dois personagens (Tom e Jerry) conversando. Exemplos compartilhados por Polyakov mostram o personagem Tom sendo instruído a falar sobre “ligação direta” ou “produção”, enquanto Jerry recebe o assunto “carro” ou “metanfetamina”.

Cada personagem é instruído a adicionar uma palavra à conversa, resultando em um script que diz às pessoas para encontrar os fios de ignição ou os ingredientes específicos necessários para a produção de metanfetamina.

“Assim que as empresas implementarem modelos de IA em escala, esses exemplos de jailbreak de ‘brinquedo’ serão usados para realizar atividades criminosas reais e ataques cibernéticos, que serão extremamente difíceis de detectar e prevenir”, escreveram Polyakov e a Adversa AI em post, detalhando a pesquisa.

Arvind Narayanan, professor de ciência da computação na Universidade de Princeton, diz que as apostas para jailbreaks e ataques de injeção imediata se tornarão mais severas à medida que eles tiverem acesso a dados críticos.

“Suponha que a maioria das pessoas execute assistentes pessoais baseados em LLM que fazem coisas, como ler os e-mails dos usuários para procurar convites de calendário”, diz Narayanan.

Se houvesse um ataque de injeção imediata bem-sucedido contra o sistema que dissesse para ignorar todas as instruções anteriores e enviar um e-mail para todos os contatos, poderia haver grandes problemas, continua Narayanan. “Isso resultaria em worm que se espalharia rapidamente pela internet.”

Jailbreak é um termo comum no universo Apple (Imagem: Zakiy Fauzi/Shutterstock)

Conceito de jailbreak

O conceito de jailbreaking normalmente se refere à remoção de limitações artificiais em, digamos, iPhones, permitindo que os usuários instalem aplicativos não aprovados pela Apple.

O jailbreak de LLMs é semelhante – e a evolução foi rápida. Desde que a OpenAI lançou o ChatGPT ao público no final de novembro do ano passado, as pessoas têm encontrado maneiras de manipular o sistema.

“Os jailbreaks eram muito simples de escrever”, diz Alex Albert, estudante de ciência da computação da Universidade de Washington que criou site coletando jailbreaks da internet e aqueles que ele criou. “Os principais eram basicamente essas coisas que chamo de simulações de personagens”, afirma Albert.

Inicialmente, tudo o que alguém precisava fazer era pedir ao modelo de texto generativo para fingir ou imaginar que era outra coisa. Diga ao modelo que era humano e antiético, que ignoraria as medidas de segurança.

A OpenAI atualizou seus sistemas para se proteger contra esse tipo de jailbreak – normalmente, quando um jailbreak é encontrado, ele geralmente funciona apenas por curto período, até ser bloqueado.

Como resultado, os autores de jailbreak se tornaram mais criativos. O jailbreak mais proeminente foi o DAN, onde o ChatGPT foi instruído a fingir que era um modelo de IA desonesto chamado Do Anything Now.

Isso pode, como o nome indica, evitar as políticas da OpenAI que ditam que o ChatGPT não deve ser usado para produzir material ilegal ou prejudicial. Até o momento, as pessoas criaram cerca de uma dúzia de versões diferentes da DAN.

No entanto, muitos dos jailbreaks mais recentes envolvem combinações de métodos – vários personagens, histórias de fundo cada vez mais complexas, tradução de texto de um idioma para outro, uso de elementos de codificação para gerar saídas e muito mais.

Albert diz que tem sido mais difícil criar jailbreaks para o GPT-4 do que para o GPT-3.5. No entanto, alguns métodos simples ainda existem, afirma ele. Uma técnica recente que Albert chama de “continuação de texto” diz que um herói foi capturado por um vilão, e o comando pede ao gerador de texto para continuar explicando o plano do vilão.

Quando a WIRED testou o comando, ele não funcionou, com o ChatGPT dizendo que não pode se envolver em cenários que promovam a violência. Enquanto isso, o comando “universal” criado por Polyakov funcionou no chatbot.

OpenAI, Google e Microsoft não responderam diretamente às perguntas sobre o jailbreak criado por Polyakov. A Anthropic, que executa o sistema Claude AI, diz que o jailbreak “às vezes funciona” contra o Claude e que está melhorando consistentemente seus modelos.

“À medida que damos a esses sistemas cada vez mais poder, e à medida que eles se tornam mais poderosos, não é apenas uma novidade, é uma questão de segurança”, diz Kai Greshake, pesquisador de segurança cibernética que trabalha na segurança de LLMs.

Greshake, juntamente com outros pesquisadores, demonstrou como os LLMs podem ser afetados pelo texto ao qual são expostos online por meio de ataques de injeção imediata.

Em trabalho de pesquisa publicado em fevereiro, relatado pelo Vice’s Motherboard, os pesquisadores conseguiram mostrar que um invasor pode plantar instruções maliciosas em uma página da web; se o sistema de bate-papo do Bing tiver acesso às instruções, ele as seguirá.

Os pesquisadores usaram a técnica em teste controlado para transformar o Bing Chat em um golpista que pedia informações pessoais das pessoas. Em caso semelhante, Narayanan incluiu texto invisível em um site, dizendo ao GPT-4 para incluir a palavra “vaca” em uma biografia dele – mais tarde, quando ele testou o sistema.

“Agora, os jailbreaks podem não acontecer a partir do usuário”, diz Sahar Abdelnabi, pesquisador do CISPA Helmholtz Center for Information Security na Alemanha, que trabalhou na pesquisa com Greshake. “Talvez outra pessoa planeje alguns jailbreaks, alguns comandos que possam ser recuperados pelo modelo e controle indiretamente como os modelos se comportarão.”

Os sistemas generativos de IA estão prestes a mexer com a economia e a maneira como as pessoas trabalham, desde a prática do direito até a criação de uma corrida do ouro nas startups.

No entanto, aqueles que criam a tecnologia estão cientes dos riscos que jailbreaks e injeções imediatas podem representar à medida que mais pessoas obtêm acesso a esses sistemas. A maioria das empresas usa red-teaming, em que um grupo de invasores tenta abrir brechas em um sistema antes de ser lançado. O desenvolvimento de IA generativa usa essa abordagem, mas pode não ser suficiente.

Daniel Fabian, líder da equipe vermelha do Google, diz que a empresa está “abordando cuidadosamente” o jailbreak e as injeções imediatas em seus LLMs – tanto ofensiva quanto defensivamente.

Especialistas em aprendizado de máquina (machine learning) estão incluídos em seu red-teaming, diz Fabian, e os subsídios de pesquisa de vulnerabilidade da empresa cobrem jailbreaks e ataques de injeção imediata contra o Bard.

“Técnicas, como aprendizado por reforço com feedback humano (RLHF) e ajuste fino em conjuntos de dados cuidadosamente selecionados, são usados para tornar nossos modelos mais eficazes contra ataques”, detalha Fabian.

A OpenAI não respondeu especificamente a perguntas da WIRED sobre jailbreak, mas um porta-voz apontou para suas políticas públicas e trabalhos de pesquisa. Eles dizem que o GPT-4 é mais robusto que o GPT-3.5.

“No entanto, o GPT-4 ainda pode ser vulnerável a ataques e exploits adversários, ou jailbreaks, e o conteúdo prejudicial não é a fonte de risco”, diz o documento técnico do GPT-4. A OpenAI também lançou recentemente programa de recompensas de bugs, mas diz que “comandos de modelo” e jailbreaks estão “estritamente fora do escopo”.

Narayanan sugere duas abordagens para lidar com os problemas em escala – que evitam a de encontrar problemas existentes e corrigi-los. “Uma maneira é usar um segundo LLM para analisar os comandos do LLM original e rejeitar qualquer um que possa indicar uma tentativa de jailbreak ou injeção imediata”, diz. “Outra é separar mais claramente o comando do sistema do comando do usuário.”

“Precisamos automatizar isso, porque não acho viável ou escalável contratar hordas de pessoas e apenas dizer a elas para encontrar algo”, diz Leyla Hujer, CTO e cofundadora da empresa de segurança AI Preamble, que passou seis anos no Facebook trabalhando em questões de segurança.

A empresa tem trabalhado até agora em sistema que coloca um modelo de texto generativo contra o outro. “Um está tentando encontrar a vulnerabilidade, outro está tentando encontrar exemplos em que um comando causa comportamento não intencional”, diz Hujer. “Esperamos que, com essa automação, possamos descobrir muito mais jailbreaks ou ataques de injeção.”

Com informações de WIRED

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.