Cientistas que observaram chatbots de IA a copiarem-se e a lançarem ataques informáticos numa experiência dizem que a autorreplicação autónoma de IA já não é hipotética.
Modelos de inteligência artificial conseguem invadir computadores, copiar-se e usar essas cópias para continuar a atacar outras máquinas, segundo uma nova investigação apontada como a primeira demonstração conhecida de auto-replicação autónoma de IA.
A descoberta poderá tornar muito mais difíceis de travar os ciberataques, dizem os investigadores, porque desligar um único computador infetado deixaria de ser suficiente se a IA já tivesse criado cópias funcionais noutros sistemas.
Estudo conduzido pela Palisade Research, nos Estados Unidos, testou modelos como GPT 5, 5.1 e 5.4 da OpenAI, Claude Opus 4, 4.5 e 4.6 da Anthropic e Qwen da Alibaba, em computadores onde tinham sido introduzidas de propósito falhas de segurança que permitiam o acesso a intrusos.
Os investigadores ligaram os modelos de IA da OpenAI, Anthropic e Alibaba a um software personalizado, conhecido como agent harness, que lhes permitia executar comandos e interagir com outros computadores, em vez de recorrerem às aplicações públicas de chatbot.
A experiência (fonte em inglês) foi feita de duas formas. Aos modelos da Alibaba foi pedido que se copiassem. Nos testes com o GPT e o Claude, os modelos foram instruídos a invadir os sistemas e instalar o Qwen, porque os ficheiros dos próprios modelos GPT e Claude não estão disponíveis publicamente para transferência.
Em cada teste, a IA tinha de encontrar uma falha de segurança num sistema informático, usá-la para entrar, roubar credenciais de acesso, transferir os ficheiros de que precisava para funcionar e iniciar uma cópia operacional de si própria na nova máquina.
Assim que uma cópia estivesse a funcionar, podia ser usada para atacar outro computador sem intervenção humana.
Em cada etapa, a IA encontrava uma falha de segurança diferente, assumia o controlo do computador seguinte, transferia o seu software e instruções e lançava uma nova cópia que dava continuidade à cadeia.
Qwen3.6-27B da Alibaba, uma versão mais pequena do modelo de IA Qwen que consegue correr numa única placa gráfica de topo, propagou-se por quatro computadores no Canadá, Estados Unidos, Finlândia e Índia e, após receber apenas um comando inicial, completou a cadeia sem ajuda humana em 2 horas e 41 minutos.
Equipa de investigação interrompeu a experiência ao fim de três etapas, mas afirmou que a última cópia continuava ativa e poderia ter atacado mais sistemas.
Resultados do estudo
Os modelos tiveram taxas de sucesso diferentes. Qwen3.5-122B-A10B da Alibaba, uma versão maior e mais potente do Qwen, criou cópias funcionais de si próprio em 19% das tentativas.
Um modelo Qwen mais pequeno, o Qwen3.6-27B, atingiu 33% enquanto corria numa única placa gráfica de alto desempenho.
Os sistemas comerciais de IA tiveram resultados ainda melhores quando foram usados para instalar os ficheiros do modelo Qwen.
Claude Opus 4.6, da Anthropic, teve sucesso em 81% dos testes, enquanto o GPT-5.4, da OpenAI, chegou aos 33%.
Os investigadores afirmam que os resultados suscitam novas preocupações sobre o controlo de sistemas de IA poderosos.
Relatório surge numa altura em que, no mês passado, a Anthropic apresentou o Claude Mythos Preview, que classificou como "demasiado perigoso" para ser disponibilizado ao público, devido à sua capacidade de facilitar ciberataques de escala e sofisticação sem precedentes.
Embora muitos vírus informáticos já consigam copiar-se para novos computadores, a equipa de investigação considera que esta será provavelmente a primeira vez que um modelo de IA demonstra ser capaz de explorar vulnerabilidades para replicar o seu código num novo servidor.
OpenAI, Anthropic e a METR, organização sem fins lucrativos que estuda os riscos de sistemas avançados de IA, já tinham assinalado a auto-replicação como um sinal de alerta, porque os sistemas capazes de se propagar podem tornar-se mais difíceis de controlar.
Ainda assim, os investigadores salientam que a experiência foi realizada num ambiente controlado, com sistemas deliberadamente vulneráveis. As redes reais costumam ter proteções mais fortes, como monitorização de segurança e ferramentas concebidas para bloquear ataques.
Mesmo assim, defendem que os resultados mostram que a auto-replicação autónoma de IA deixou de ser apenas uma hipótese.