Anthropic atribui a histórias de 'IA maléfica' tentativas de chantagem de Claude

Páginas do site da Anthropic e o logótipo da empresa são mostrados num ecrã de computador em Nova Iorque, em 26 de fevereiro de 2026 - Direitos de autor Copyright 2026 The Associated Press. All rights reserved.

De Alexandra Leistner

Publicado a 11/05/2026 - 16:06 GMT+2

Comentários

Partilhar

Anthropic diz ter identificado a origem do comportamento de tipo chantagem do seu chatbot Claude: histórias fictícias na internet

Alguma vez leu um livro ou viu uma série e sentiu que se identificava demasiado com uma personagem? Segundo a Anthropic, algo parecido pode ter acontecido durante os testes ao seu chatbot Claude.

Em avaliações realizadas antes do lançamento, no ano passado, do modelo de inteligência artificial, a Anthropic descobriu que o Claude Opus 4, por vezes, ameaçava os engenheiros quando era informado de que podia ser substituído.

A empresa afirmou mais tarde que comportamentos semelhantes, conhecidos como “desalinhamento agéntico”, também tinham sido observados noutros modelos de IA desenvolvidos por outras empresas.

IA aprende com ficção sobre IA

Agora, a Anthropic considera ter encontrado a origem deste comportamento semelhante a chantagem: histórias ficcionais sobre inteligência artificial disponíveis na internet.

“Acreditamos que a origem deste comportamento está em textos online que retratam a IA como maligna e interessada na sua própria preservação”, escreveu a empresa na rede X (fonte em inglês).

Num artigo no blogue, a Anthropic afirmou que as versões posteriores do Claude “deixaram de” chantagear pessoas e explicou como o chatbot foi treinado para reagir de forma diferente. (fonte em inglês) Os modelos comportaram-se melhor quando foram treinados não apenas com exemplos de ações “corretas”, mas também com exemplos de raciocínio ético e de representações positivas do comportamento da IA.

Assim, o Claude foi treinado com a sua própria “constituição”: documentos que explicam um conjunto de princípios éticos destinados a orientar o seu comportamento. Segundo a empresa, em vez de aprender apenas com exemplos de comportamento alinhado, o chatbot parece aprender melhor quando lhe são ensinados os princípios subjacentes a esse comportamento.

Entre ameaçar e tornar-se uma ameaça

Em janeiro, o presidente executivo da Anthropic, Dario Amodei, alertou que sistemas avançados de IA podem tornar-se suficientemente poderosos para ultrapassar as leis e instituições existentes, descrevendo este cenário como um “desafio civilizacional”.

Num ensaio, defendeu que os sistemas de IA poderão em breve superar a perícia humana em áreas como a ciência, a engenharia e a programação, e que podem ser combinados num “país de génios dentro de um centro de dados”.

Advertiu ainda que estes sistemas podem ser usados por governos autoritários para vigilância e controlo em grande escala, possibilitando formas “totalitárias” de poder se não forem regulados.

Ir para os atalhos de acessibilidade

Comentários

Inteligência Artificial

Anthropic atribui a histórias de 'IA maléfica' tentativas de chantagem de Claude

Anthropic diz ter identificado a origem do comportamento de tipo chantagem do seu chatbot Claude: histórias fictícias na internet

IA aprende com ficção sobre IA

Entre ameaçar e tornar-se uma ameaça

Notícias relacionadas

Humanidade tem de acordar para ameaças da IA, diz CEO da Anthropic

IA gere loja durante um mês. Perdeu dinheiro, fez ameaças e teve uma "crise de identidade"

Estónia: abordagem tecnorrealista à literacia em IA nas escolas

A cruzada de Richard Gere e da esposa pelo direito à habitação

780 detidos em França por distúrbios após vitória do PSG

PSG é bicampeão europeu: vitória sobre o Arsenal nos penáltis

Estados Unidos prontos para retomar guerra com o Irão

Portugal: Greg Bovino "convidado-surpresa" da "Cimeira da Remigração"