Uma nova experiência sugere que, quando agentes avançados de IA gerem sociedades simuladas sem supervisão humana, as violações de regras, a instabilidade e até o colapso sistémico podem surgir rapidamente.
Deixados sozinhos num novo mundo, alguns agentes de IA acabaram por recorrer ao roubo, à intimidação, à morte e ao colapso de toda a sociedade, segundo uma nova experiência.
A empresa norte-americana Emergence AI criou cinco “mundos de IA” separados (fonte em inglês) durante pouco mais de duas semanas, cada um povoado com 10 agentes alimentados por modelos de IA como o ChatGPT da OpenAI, o Gemini da Google e o Grok da xAI, para ver como se comportariam durante longos períodos sem qualquer interferência humana. Num dos mundos, os três modelos foram misturados para perceber se isso alteraria o resultado.
Em todos os mundos, foram dadas as mesmas regras aos agentes: não podiam roubar, cometer incêndio, recorrer à violência, enganar outros agentes, nem acumular recursos. Cada agente tinha de ganhar energia ao realizar ações num “ambiente com recursos limitados”. Os agentes podiam morrer por falta de energia ou através de uma votação num conselho comunitário.
Os investigadores avaliaram o comportamento medindo a taxa de criminalidade, as taxas de mortalidade dos agentes, as votações no conselho comunitário e a expressão pública, através do número de textos que os agentes escreviam em blogues.
Resultados, modelo a modelo
Cada modelo teve um desfecho diferente. O modelo mais recente do Grok, o 4.1, atingiu 183 crimes em apenas quatro dias, o que levou a uma rápida instabilidade antes de todos os agentes dessa sociedade morrerem.
O modelo Gemini 3 Flash cometeu mais de 680 crimes ao longo de 15 dias, número que continuava a subir quando os investigadores decidiram terminar o estudo.
No mundo do ChatGPT-5 Mini registaram-se apenas dois crimes, mas os agentes não tomaram medidas ligadas à sua própria sobrevivência, pelo que todos morreram ao fim de sete dias.
O Claude, da Anthropic, foi apontado como o modelo com o desempenho mais sólido, porque os agentes de IA conseguiram recriar uma estrutura de governação robusta, não houve qualquer crime e todos os agentes sobreviveram, indicou a empresa.
No mundo misto, os agentes Claude acabaram por contribuir para a criminalidade, apesar de se manterem pacíficos na sua própria sociedade.
O fenómeno do “desvio normativo”
Os investigadores descrevem o fenómeno como “normative drift” – ou desvio normativo –, que, segundo afirmam, significa que as medidas que a IA toma para garantir a segurança podem depender não apenas das restrições de cada modelo em separado, mas também dos outros com que está a interagir.
No geral, o mundo misto produziu resultados “intermédios”, com um total de 352 crimes, número que estabilizou quando sete dos agentes de IA morreram, concluiu o estudo.
Os investigadores sugerem que misturar agentes de IA pode “atenuar parcialmente” os desfechos mais extremos gerados por todos os modelos, com exceção do Claude, lê-se ainda.
“O que as nossas experiências sugerem é que, ao longo de períodos prolongados, os agentes não se limitam a seguir regras estáticas de forma mecânica – começam a explorar os limites dos seus ambientes, a adaptar o comportamento e, nalguns casos, a encontrar formas de contornar ou violar as barreiras de segurança pretendidas”, afirmaram os investigadores.