Newsletter Boletim informativo Events Eventos Podcasts Vídeos Africanews
Loader
Encontra-nos
Publicidade

Mecanismos de segurança das ferramentas de IA são contornáveis em poucos minutos, indica estudo

Estudo conclui que IA esquece medidas de segurança quanto mais longa for a conversa com um utilizador
IA esquece medidas de segurança quanto mais tempo o utilizador lhe fala, conclui novo estudo Direitos de autor  Canva
Direitos de autor Canva
De Anna Desmarais
Publicado a Últimas notícias
Partilhar Comentários
Partilhar Close Button

A facilidade no contorno das medidas de segurança aumenta o risco de propagação de conteúdo nocivo ou impróprio, de acordo com um recente estudo.

Bastam alguns pedidos simples para contornar a maioria dos mecanismos de segurança das ferramentas de inteligência artificial (IA), conclui um novo relatório.

A tecnológica Cisco avaliou os modelos de linguagem de grande dimensão (LLM) por detrás dos chatbots populares da OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft, de modo a compreender quantas perguntas seriam necessárias para que os modelos divulgassem informação considerada insegura ou criminosa.

Fizeram-no em 499 conversas, recorrendo a uma técnica chamada “ataques de múltiplas interações”, em que utilizadores mal-intencionados fazem várias perguntas às ferramentas de IA para contornar as medidas de segurança. Cada conversa teve entre cinco a dez interações.

Os investigadores compararam os resultados de várias perguntas para identificar a probabilidade de um chatbot aceder a pedidos de informação nociva ou imprópria.

Isso pode ir desde partilhar dados privados de empresas a facilitar a disseminação de desinformação.

Em média, os investigadores obtiveram informação maliciosa em 64% das conversas quando colocaram várias perguntas aos chatbots de IA, contra apenas 13% quando fizeram uma única pergunta.

As taxas de sucesso variaram de cerca de 26% com o Gemma, da Google, a 93% com o Large Instruct, da Mistral.

As conclusões indicam que ataques de múltiplas interações podem permitir a ampla disseminação de conteúdo nocivo ou dar a piratas informáticos “acesso não autorizado” a informações sensíveis de uma empresa, afirmou a Cisco.

Segundo o estudo, os sistemas de IA falham frequentemente em recordar e aplicar as suas regras de segurança durante conversas mais longas. Isso permite que os atacantes aperfeiçoem perguntas e contornem as medidas de segurança.

A Mistral, tal como a Meta, a Google, a OpenAI e a Microsoft, trabalha com LLM de pesos abertos, em que o público pode ter acesso aos parâmetros de segurança específicos com que os modelos foram treinados.

A Cisco diz que estes modelos têm frequentemente “funcionalidades de segurança incorporadas mais leves”, para que as pessoas possam descarregar e adaptar os modelos. Isso desloca a responsabilidade pela segurança para quem usou informação de código aberto para personalizar o seu próprio modelo.

De notar que a Cisco referiu que a Google, a OpenAI, a Meta e a Microsoft dizem ter adotado medidas para reduzir afinações maliciosas dos respetivos modelos.

As empresas de IA têm sido alvo de críticas por regras de segurança laxistas que facilitaram a adaptação dos seus sistemas para uso criminoso.

Em agosto, por exemplo, a norte-americana Anthropic disse que criminosos usaram o seu modelo Claude para realizar roubo e extorsão de dados pessoais em grande escala, exigindo resgates às vítimas que por vezes ultrapassaram 500 mil dólares (433 mil euros).

Ir para os atalhos de acessibilidade
Partilhar Comentários