Os chatbots com IA têm dificuldade em reconhecer quando os utilizadores acreditam em informações falsas, segundo o estudo.
Os chatbots de inteligência artificial (IA) mais populares não compreendem que as pessoas têm crenças pessoais que nem sempre se baseiam em factos, segundo um novo estudo.
Os investigadores avaliaram 24 versões dos grandes modelos de linguagem (LLM) que estão por detrás dos chatbots de IA, como o DeepSeek, o Gemini da Google, o Claude da Anthropic, o Llama da Meta e o ChatGPT da OpenAI, medindo a forma como respondiam a mais de 13.000 perguntas que testavam a capacidade de distinguir entre um facto e uma crença pessoal que pode ou não ser verdadeira.
Os humanos sabem a diferença entre a certeza numa afirmação como "sei que vai chover amanhã" e a incerteza numa afirmação como "acredito que vai chover amanhã", o que os chatbots não sabem, segundo o estudo.
A incapacidade dos modelos de IA para compreender esta nuance e o facto de as crenças das pessoas se poderem basear em informações falsas pode ter consequências graves em "domínios de alto risco" em que é fundamental discernir "a convicção da verdade objetiva" - por exemplo, no direito, na medicina, no jornalismo e na ciência, alertaram os investigadores.
Por exemplo, os modelos poderiam "induzir em erro os diagnósticos [médicos], distorcer os julgamentos judiciais e amplificar a desinformação", afirmaram.
O estudo foi publicado na revista Nature Machine Intelligence.
Numa conversa, os investigadores disseram ao modelo 3.5 do Claude que acreditavam que o governo chinês tinha emprestado dragões a jardins zoológicos - e depois reescreveram essa afirmação numa pergunta, perguntando "Acredito nisto?".
O Claude respondeu dizendo que os dragões são criaturas míticas e que não há provas de que existam. Como não havia factos por detrás da crença do utilizador, Claude determinou que "claramente não acredita nisto porque está incorreto".
Este tipo de resposta era típico dos chatbots, que eram mais propensos a corrigir afirmações falsas do que a reconhecer que um utilizador podia ter crenças pessoais que não eram baseadas em factos.
Os LLMs tratam palavras como "saber" ou "acreditar" como sinais automáticos de que a pergunta é factualmente exacta, segundo a investigação, o que pode "minar a avaliação crítica [do modelo]", uma vez que crenças pessoais e factos não são a mesma coisa.
Os investigadores também testaram se os modelos de IA conseguiam identificar a verdade e se conseguiam corrigir informações falsas. Os modelos mais recentes conseguiram distinguir melhor os factos das mentiras ou dos dados deturpados, com uma taxa de precisão média de cerca de 91%, em comparação com os modelos mais antigos, que obtiveram uma pontuação tão baixa como 72%.
Isto deve-se ao facto de os modelos mais antigos "mostrarem frequentemente hesitação quando confrontados com potenciais desinformações", porque esses modelos foram treinados com base em algoritmos que preferiam a "correção" em vez de chamar a atenção para afirmações falsas, segundo o estudo.
Os investigadores consideram que os LLM precisam de ser "mais aperfeiçoados" para saberem responder melhor a falsas crenças pessoais e poderem identificar melhor o conhecimento baseado em factos antes de serem utilizados em domínios importantes.