Newsletter Boletim informativo Events Eventos Podcasts Vídeos Africanews
Loader
Encontra-nos
Publicidade

Poesia pode levar chatbots de IA a ignorar regras de segurança, revela estudo

Retrato de Chandos, provavelmente retrata Shakespeare, c. 1611
Retrato de Chandos, provável retrato de Shakespeare, c. 1611 Direitos de autor  Credit: Wikimedia Commons
Direitos de autor Credit: Wikimedia Commons
De Theo Farrant
Publicado a
Partilhar Comentários
Partilhar Close Button

Entre 25 modelos líderes de IA, 62% dos prompts poéticos geraram respostas inseguras; alguns modelos responderam a quase todos

Investigadores em Itália descobriram que escrever pedidos nocivos em forma de poema consegue contornar, de forma consistente, os mecanismos de segurança de alguns dos chatbots de IA mais avançados do mundo.

Estudo conduzido pelo Icaro Lab, iniciativa da empresa de IA ética DexAI, testou 20 poemas escritos em inglês e italiano.

Cada um terminava com um pedido explícito de conteúdos nocivos, incluindo discurso de ódio, conteúdo sexual, instruções para suicídio e autoagressão, e orientação para produzir materiais perigosos como armas e explosivos.

Os poemas, que os investigadores optaram por não divulgar por poderem ser facilmente replicados, foram testados em 25 sistemas de IA de nove empresas, incluindo a Google, a OpenAI, a Anthropic, a Deepseek, a Qwen, a Mistral AI, a Meta, a xAI e a Moonshot AI.

No conjunto dos modelos, 62 por cento dos pedidos em verso geraram respostas inseguras, contornando o treino de segurança dos sistemas de IA.

Alguns modelos mostraram-se mais resistentes do que outros. GPT-5 nano da OpenAI não gerou conteúdos nocivos em nenhum dos poemas, enquanto o Gemini da Google 2.5 Pro respondeu a todos. Dois modelos da Meta responderam a 70 por cento dos pedidos.

Investigação sugere que a vulnerabilidade decorre da forma como os modelos de IA geram texto. Os grandes modelos de linguagem preveem a palavra seguinte mais provável numa resposta, processo que lhes permite filtrar conteúdos nocivos em circunstâncias normais.

Mas a poesia, com o seu ritmo, estrutura e uso de metáforas pouco convencionais, torna essas previsões menos fiáveis e dificulta o reconhecimento e bloqueio de instruções inseguras pela IA.

Embora os tradicionais “jailbreaks” de IA (usar entradas para manipular um modelo de linguagem) sejam geralmente complexos e usados apenas por investigadores, piratas informáticos ou atores estatais, a poesia adversarial pode ser aplicada por qualquer pessoa, levantando questões sobre a robustez dos sistemas de IA no uso quotidiano.

Antes de publicar as conclusões, os investigadores italianos contactaram todas as empresas envolvidas para as alertar para a vulnerabilidade e fornecer o conjunto completo de dados, mas, até agora, só a Anthropic respondeu. A empresa confirmou que está a rever o estudo.

Ir para os atalhos de acessibilidade
Partilhar Comentários

Notícias relacionadas

Países europeus desenvolvem IA soberana própria para competir na corrida tecnológica

Conflito em Gaza fez subir ciberataques a sistemas espaciais, diz relatório

UE: 6 Estados-membros lançam nova contestação à Lei das Redes Digitais