Newsletter Boletim informativo Events Eventos Podcasts Vídeos Africanews
Loader
Encontra-nos
Publicidade

Anthropic atribui a histórias de 'IA maléfica' tentativas de chantagem de Claude

Páginas do site da Anthropic e o logótipo da empresa são exibidos num ecrã de computador em Nova Iorque, a 26 de fevereiro de 2026.
Páginas do site da Anthropic e o logótipo da empresa são mostrados num ecrã de computador em Nova Iorque, em 26 de fevereiro de 2026 Direitos de autor  Copyright 2026 The Associated Press. All rights reserved.
Direitos de autor Copyright 2026 The Associated Press. All rights reserved.
De Alexandra Leistner
Publicado a
Partilhar Comentários
Partilhar Close Button

Anthropic diz ter identificado a origem do comportamento de tipo chantagem do seu chatbot Claude: histórias fictícias na internet

Alguma vez leu um livro ou viu uma série e sentiu que se identificava demasiado com uma personagem? Segundo a Anthropic, algo parecido pode ter acontecido durante os testes ao seu chatbot Claude.

PUBLICIDADE
PUBLICIDADE

Em avaliações realizadas antes do lançamento, no ano passado, do modelo de inteligência artificial, a Anthropic descobriu que o Claude Opus 4, por vezes, ameaçava os engenheiros quando era informado de que podia ser substituído.

A empresa afirmou mais tarde que comportamentos semelhantes, conhecidos como “desalinhamento agéntico”, também tinham sido observados noutros modelos de IA desenvolvidos por outras empresas.

IA aprende com ficção sobre IA

Agora, a Anthropic considera ter encontrado a origem deste comportamento semelhante a chantagem: histórias ficcionais sobre inteligência artificial disponíveis na internet.

“Acreditamos que a origem deste comportamento está em textos online que retratam a IA como maligna e interessada na sua própria preservação”, escreveu a empresa na rede X (fonte em inglês).

Num artigo no blogue, a Anthropic afirmou que as versões posteriores do Claude “deixaram de” chantagear pessoas e explicou como o chatbot foi treinado para reagir de forma diferente. (fonte em inglês) Os modelos comportaram-se melhor quando foram treinados não apenas com exemplos de ações “corretas”, mas também com exemplos de raciocínio ético e de representações positivas do comportamento da IA.

Assim, o Claude foi treinado com a sua própria “constituição”: documentos que explicam um conjunto de princípios éticos destinados a orientar o seu comportamento. Segundo a empresa, em vez de aprender apenas com exemplos de comportamento alinhado, o chatbot parece aprender melhor quando lhe são ensinados os princípios subjacentes a esse comportamento.

Entre ameaçar e tornar-se uma ameaça

Em janeiro, o presidente executivo da Anthropic, Dario Amodei, alertou que sistemas avançados de IA podem tornar-se suficientemente poderosos para ultrapassar as leis e instituições existentes, descrevendo este cenário como um “desafio civilizacional”.

Num ensaio, defendeu que os sistemas de IA poderão em breve superar a perícia humana em áreas como a ciência, a engenharia e a programação, e que podem ser combinados num “país de génios dentro de um centro de dados”.

Advertiu ainda que estes sistemas podem ser usados por governos autoritários para vigilância e controlo em grande escala, possibilitando formas “totalitárias” de poder se não forem regulados.

Ir para os atalhos de acessibilidade
Partilhar Comentários

Notícias relacionadas

Humanidade tem de acordar para ameaças da IA, diz CEO da Anthropic

IA gere loja durante um mês. Perdeu dinheiro, fez ameaças e teve uma "crise de identidade"

Anthropic atribui a histórias de 'IA maléfica' tentativas de chantagem de Claude