Anthropic diz ter identificado a origem do comportamento de tipo chantagem do seu chatbot Claude: histórias fictícias na internet
Alguma vez leu um livro ou viu uma série e sentiu que se identificava demasiado com uma personagem? Segundo a Anthropic, algo parecido pode ter acontecido durante os testes ao seu chatbot Claude.
Em avaliações realizadas antes do lançamento, no ano passado, do modelo de inteligência artificial, a Anthropic descobriu que o Claude Opus 4, por vezes, ameaçava os engenheiros quando era informado de que podia ser substituído.
A empresa afirmou mais tarde que comportamentos semelhantes, conhecidos como “desalinhamento agéntico”, também tinham sido observados noutros modelos de IA desenvolvidos por outras empresas.
IA aprende com ficção sobre IA
Agora, a Anthropic considera ter encontrado a origem deste comportamento semelhante a chantagem: histórias ficcionais sobre inteligência artificial disponíveis na internet.
“Acreditamos que a origem deste comportamento está em textos online que retratam a IA como maligna e interessada na sua própria preservação”, escreveu a empresa na rede X (fonte em inglês).
Num artigo no blogue, a Anthropic afirmou que as versões posteriores do Claude “deixaram de” chantagear pessoas e explicou como o chatbot foi treinado para reagir de forma diferente. (fonte em inglês) Os modelos comportaram-se melhor quando foram treinados não apenas com exemplos de ações “corretas”, mas também com exemplos de raciocínio ético e de representações positivas do comportamento da IA.
Assim, o Claude foi treinado com a sua própria “constituição”: documentos que explicam um conjunto de princípios éticos destinados a orientar o seu comportamento. Segundo a empresa, em vez de aprender apenas com exemplos de comportamento alinhado, o chatbot parece aprender melhor quando lhe são ensinados os princípios subjacentes a esse comportamento.
Entre ameaçar e tornar-se uma ameaça
Em janeiro, o presidente executivo da Anthropic, Dario Amodei, alertou que sistemas avançados de IA podem tornar-se suficientemente poderosos para ultrapassar as leis e instituições existentes, descrevendo este cenário como um “desafio civilizacional”.
Num ensaio, defendeu que os sistemas de IA poderão em breve superar a perícia humana em áreas como a ciência, a engenharia e a programação, e que podem ser combinados num “país de génios dentro de um centro de dados”.
Advertiu ainda que estes sistemas podem ser usados por governos autoritários para vigilância e controlo em grande escala, possibilitando formas “totalitárias” de poder se não forem regulados.