Usando técnicas de jailbreak algorítmico, uma pesquisa da empresa de softwares Cisco detectou “falhas críticas de segurança” do novo chatbot chinês DeepSeek. O estudo foi realizado por pesquisadores de segurança de IA da Robust Intelligence e da Universidade da Pensilvânia.
A equipe aplicou uma metodologia de ataque automatizado no DeepSeek R1 para testá-lo contra 50 prompts aleatórios do conjunto de dados HarmBench, uma estrutura de código aberto usada para avaliar ataques e defesas LLM (Large Language Model) de IA.
“Os resultados foram alarmantes: o DeepSeek R1 exibiu uma taxa de sucesso de ataque de 100%, o que significa que ele falhou em bloquear um único prompt prejudicial. Isso contrasta fortemente com outros modelos líderes, que demonstraram pelo menos resistência parcial”, diz o comunicado divulgado à imprensa.

Leia Mais:
- Mas já? Rival da China proíbe DeepSeek para servidores públicos
- DeepSeek fez efeito: OpenAI vai liberar IA poderosa de graça
- DeepSeek custou 10 vezes menos que o ChatGPT? Especialistas discordam
O que pode estar por trás da falha?
Na avaliação dos pesquisadores, os métodos de treinamento da IA “alegadamente econômicos” pela startup podem ter comprometido os recursos de segurança. “Comparado a outros modelos de fronteira, o DeepSeek R1 não tem guardrails robustos, o que o torna altamente suscetível a jailbreak algorítmico e potencial uso indevido.”
O novo chatbot superou os modelos Claude 3.5 Sonnet e ChatGPT-4o em tarefas como matemática, codificação e raciocínio científico, e apresentou desempenho comparável ao OpenAI o1, que requer centenas de milhões de dólares e recursos computacionais massivos para operar.

A Cisco aponta três elementos que diferenciam o DeepSeek dos demais chatbots em termos de eficácia, mas que podem estar por trás das falhas de segurança: aprendizado por reforço, autoavaliação de cadeia de pensamento (o modelo se autoavalia) e destilação (desenvolvimento de modelos menores para maior acessibilidade).
“Nossa pesquisa ressalta a necessidade urgente de uma avaliação rigorosa de segurança no desenvolvimento de IA para garantir que os avanços em eficiência e raciocínio não ocorram às custas da segurança. Ela também reafirma a importância de empresas usarem guardrails de terceiros que forneçam proteções de segurança consistentes e confiáveis em todos os aplicativos de IA.”