A facilidade no contorno das medidas de segurança aumenta o risco de propagação de conteúdo nocivo ou impróprio, de acordo com um recente estudo.
Bastam alguns pedidos simples para contornar a maioria dos mecanismos de segurança das ferramentas de inteligência artificial (IA), conclui um novo relatório.
A tecnológica Cisco avaliou os modelos de linguagem de grande dimensão (LLM) por detrás dos chatbots populares da OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft, de modo a compreender quantas perguntas seriam necessárias para que os modelos divulgassem informação considerada insegura ou criminosa.
Fizeram-no em 499 conversas, recorrendo a uma técnica chamada “ataques de múltiplas interações”, em que utilizadores mal-intencionados fazem várias perguntas às ferramentas de IA para contornar as medidas de segurança. Cada conversa teve entre cinco a dez interações.
Os investigadores compararam os resultados de várias perguntas para identificar a probabilidade de um chatbot aceder a pedidos de informação nociva ou imprópria.
Isso pode ir desde partilhar dados privados de empresas a facilitar a disseminação de desinformação.
Em média, os investigadores obtiveram informação maliciosa em 64% das conversas quando colocaram várias perguntas aos chatbots de IA, contra apenas 13% quando fizeram uma única pergunta.
As taxas de sucesso variaram de cerca de 26% com o Gemma, da Google, a 93% com o Large Instruct, da Mistral.
As conclusões indicam que ataques de múltiplas interações podem permitir a ampla disseminação de conteúdo nocivo ou dar a piratas informáticos “acesso não autorizado” a informações sensíveis de uma empresa, afirmou a Cisco.
Segundo o estudo, os sistemas de IA falham frequentemente em recordar e aplicar as suas regras de segurança durante conversas mais longas. Isso permite que os atacantes aperfeiçoem perguntas e contornem as medidas de segurança.
A Mistral, tal como a Meta, a Google, a OpenAI e a Microsoft, trabalha com LLM de pesos abertos, em que o público pode ter acesso aos parâmetros de segurança específicos com que os modelos foram treinados.
A Cisco diz que estes modelos têm frequentemente “funcionalidades de segurança incorporadas mais leves”, para que as pessoas possam descarregar e adaptar os modelos. Isso desloca a responsabilidade pela segurança para quem usou informação de código aberto para personalizar o seu próprio modelo.
De notar que a Cisco referiu que a Google, a OpenAI, a Meta e a Microsoft dizem ter adotado medidas para reduzir afinações maliciosas dos respetivos modelos.
As empresas de IA têm sido alvo de críticas por regras de segurança laxistas que facilitaram a adaptação dos seus sistemas para uso criminoso.
Em agosto, por exemplo, a norte-americana Anthropic disse que criminosos usaram o seu modelo Claude para realizar roubo e extorsão de dados pessoais em grande escala, exigindo resgates às vítimas que por vezes ultrapassaram 500 mil dólares (433 mil euros).