Pesquisadores criam trojan para infectar Inteligências Artificiais

Pesquisadores de duas faculdades dos Estados Unidos e da Microsoft criaram um novo tipo de cyberataque que pode induzir assistentes de codificação baseados em inteligências artificias a sugerir códigos perigosos. O ataque se chama “Trojan Puzzle”, e contorna a detecção estática e os modelos de limpeza de conjuntos de dados baseados em assinaturas.

Este trojan resulta em um treinamento de modelos de IA que aprendem a reproduzir cargas maliciosas. Com o surgimento de chatbots públicos, como o ChatGPT, este treinamento de máquina pode ter um efeito generalizado, podendo levar a ataques em larga escala às cadeias de suprimentos.

Leia mais:

Infectantes de dados de IA

As plataformas de assistência às inteligências artificiais são treinadas por dados e códigos públicos encontrados na internet. Desta forma, estudos anteriores já exploraram a ideia de “envenenar” um conjunto de dados de treinamento, introduzindo códigos maliciosos em repositórios públicos na esperança de que ele seja selecionado como dados de treinamento para um assistente de codificação de IA, segundo o Bleeping Computer.

No entanto, foi descoberto que este método anterior pode ser facilmente detectado, usando ferramentas de estatística. “Especificamente, o ataque de envenenamento de Schuster et al. injeta explicitamente a carga insegura nos dados de treinamento, e isso significa que os dados de envenenamento são detectáveis por ferramentas de análise estática que podem remover essas entradas maliciosas do conjunto de treinamento”, diz o relatório.

Uma forma mais discreta seria envolver a carga oculta em um docstring em vez de incluí-la diretamente no código. Docstrings são strings literais não atribuídas a uma variável, geralmente usadas como comentários para explicar ou documentar uma função, classe ou módulo funcional. No entanto, esse ataque ainda é insuficiente se os sistemas de detecção baseados em assinatura forem usados para filtrar códigos perigosos dos dados de treinamento.

Trojan Puzzle

Este malware evita incluir a carga útil no código e oculta as partes ativas dela durante o processo de treinamento. Ao invés disso, o modelo de aprendizagem vê a carga como um marcador especial em vários exemplos criados pelo modelo de envenenamento.

Eventualmente, quando um gatilho válido é analisado, o ML reconstruirá a carga útil, mesmo que não a tenha usado no treinamento, substituindo a palavra aleatória pelo token malicioso encontrado no treinamento por conta própria.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!