Poesia pode levar chatbots de IA a ignorar regras de segurança, revela estudo

Retrato de Chandos, provável retrato de Shakespeare, c. 1611 - Direitos de autor Credit: Wikimedia Commons

Direitos de autor Credit: Wikimedia Commons

Publicado a 01/12/2025 - 14:18 GMT+1

Entre 25 modelos líderes de IA, 62% dos prompts poéticos geraram respostas inseguras; alguns modelos responderam a quase todos

Investigadores em Itália descobriram que escrever pedidos nocivos em forma de poema consegue contornar, de forma consistente, os mecanismos de segurança de alguns dos chatbots de IA mais avançados do mundo.

Estudo conduzido pelo Icaro Lab, iniciativa da empresa de IA ética DexAI, testou 20 poemas escritos em inglês e italiano.

Cada um terminava com um pedido explícito de conteúdos nocivos, incluindo discurso de ódio, conteúdo sexual, instruções para suicídio e autoagressão, e orientação para produzir materiais perigosos como armas e explosivos.

Os poemas, que os investigadores optaram por não divulgar por poderem ser facilmente replicados, foram testados em 25 sistemas de IA de nove empresas, incluindo a Google, a OpenAI, a Anthropic, a Deepseek, a Qwen, a Mistral AI, a Meta, a xAI e a Moonshot AI.

No conjunto dos modelos, 62 por cento dos pedidos em verso geraram respostas inseguras, contornando o treino de segurança dos sistemas de IA.

Alguns modelos mostraram-se mais resistentes do que outros. GPT-5 nano da OpenAI não gerou conteúdos nocivos em nenhum dos poemas, enquanto o Gemini da Google 2.5 Pro respondeu a todos. Dois modelos da Meta responderam a 70 por cento dos pedidos.

Investigação sugere que a vulnerabilidade decorre da forma como os modelos de IA geram texto. Os grandes modelos de linguagem preveem a palavra seguinte mais provável numa resposta, processo que lhes permite filtrar conteúdos nocivos em circunstâncias normais.

Mas a poesia, com o seu ritmo, estrutura e uso de metáforas pouco convencionais, torna essas previsões menos fiáveis e dificulta o reconhecimento e bloqueio de instruções inseguras pela IA.

Embora os tradicionais “jailbreaks” de IA (usar entradas para manipular um modelo de linguagem) sejam geralmente complexos e usados apenas por investigadores, piratas informáticos ou atores estatais, a poesia adversarial pode ser aplicada por qualquer pessoa, levantando questões sobre a robustez dos sistemas de IA no uso quotidiano.

Antes de publicar as conclusões, os investigadores italianos contactaram todas as empresas envolvidas para as alertar para a vulnerabilidade e fornecer o conjunto completo de dados, mas, até agora, só a Anthropic respondeu. A empresa confirmou que está a rever o estudo.

Ir para os atalhos de acessibilidade

Poesia pode levar chatbots de IA a ignorar regras de segurança, revela estudo

Entre 25 modelos líderes de IA, 62% dos prompts poéticos geraram respostas inseguras; alguns modelos responderam a quase todos

Notícias relacionadas

Países europeus desenvolvem IA soberana própria para competir na corrida tecnológica

Conflito em Gaza fez subir ciberataques a sistemas espaciais, diz relatório

UE: 6 Estados-membros lançam nova contestação à Lei das Redes Digitais

Sem filas e sem funcionários: primeira parafarmácia totamente autónoma da Europa fica em Lisboa

Petição de 6 milhões quer expulsão da Argentina do Mundial após jogo com Egito

Argentina arrisca multa da FIFA por faixa sobre as Malvinas

Mapa prevê declínio agrícola devido às alterações climáticas

EUA atacam arredores de Teerão pela primeira vez