DeepSeek falha em teste de segurança: “resultado alarmante”

Tudo sobre ChatGPT

Tudo sobre Inteligência Artificial

Usando técnicas de jailbreak algorítmico, uma pesquisa da empresa de softwares Cisco detectou “falhas críticas de segurança” do novo chatbot chinês DeepSeek. O estudo foi realizado por pesquisadores de segurança de IA da Robust Intelligence e da Universidade da Pensilvânia.

Ofertas

Vendido por Amazon

FIFINE Mixer de áudio, mixer para PC de streaming de jogos com controle deslizante, interface de microfone XLR, monitoramento, para gravação de vídeo/voz de jogos/podcast - SC3 Branco

Por R$ 315,99

Vendido por Amazon

Highway Moto Rider 3D Real Bike Racing Simulator 🏍️

Por R$ 5,49

Vendido por Amazon

Dac 502Pp-Tr, Pasta Polipropileno Economico Lombo 20Mm, Transparente

De: R$ 6,39
Por: R$ 4,90

Vendido por Amazon

Controle Grips para Nintendo Switch 2 JoyCon (2025), Kit de Alça Resistente Ao Desgaste para Controle JoyCon Switch 2, pacote com 2

De: R$ 99,00
Por: R$ 89,10

Vendido por Amazon

DAC 501PP-VD Pasta Polipropileno Economic Oficio, 332 mm x 232 mm, Unitario, Verde

Por R$ 3,10

Vendido por Amazon

Cartão de Memória Cartao de Memoria 128/64/32gb GENAI Micro SD Card Cartao de Memoria 32 GB Card SD Card - 32Gb

De: R$ 59,99
Por: R$ 47,40

A equipe aplicou uma metodologia de ataque automatizado no DeepSeek R1 para testá-lo contra 50 prompts aleatórios do conjunto de dados HarmBench, uma estrutura de código aberto usada para avaliar ataques e defesas LLM (Large Language Model) de IA.

“Os resultados foram alarmantes: o DeepSeek R1 exibiu uma taxa de sucesso de ataque de 100%, o que significa que ele falhou em bloquear um único prompt prejudicial. Isso contrasta fortemente com outros modelos líderes, que demonstraram pelo menos resistência parcial”, diz o comunicado divulgado à imprensa.

Ícones dos aplicativos do ChatGPT e do DeepSeek na tela inicial de iPhone — Taxa de sucesso de ataque foi de 100% no DeepSeek (Imagem: Poetra.RH/Shutterstock)

Leia Mais:

O que pode estar por trás da falha?

Na avaliação dos pesquisadores, os métodos de treinamento da IA “alegadamente econômicos” pela startup podem ter comprometido os recursos de segurança. “Comparado a outros modelos de fronteira, o DeepSeek R1 não tem guardrails robustos, o que o torna altamente suscetível a jailbreak algorítmico e potencial uso indevido.”

O novo chatbot superou os modelos Claude 3.5 Sonnet e ChatGPT-4o em tarefas como matemática, codificação e raciocínio científico, e apresentou desempenho comparável ao OpenAI o1, que requer centenas de milhões de dólares e recursos computacionais massivos para operar.

Resultados de testes de segurança em chatbots (Imagem: Cisco/ Reprodução)

A Cisco aponta três elementos que diferenciam o DeepSeek dos demais chatbots em termos de eficácia, mas que podem estar por trás das falhas de segurança: aprendizado por reforço, autoavaliação de cadeia de pensamento (o modelo se autoavalia) e destilação (desenvolvimento de modelos menores para maior acessibilidade).

“Nossa pesquisa ressalta a necessidade urgente de uma avaliação rigorosa de segurança no desenvolvimento de IA para garantir que os avanços em eficiência e raciocínio não ocorram às custas da segurança. Ela também reafirma a importância de empresas usarem guardrails de terceiros que forneçam proteções de segurança consistentes e confiáveis em todos os aplicativos de IA.”