Modelos linguísticos de IA falham em fornecer um diagnóstico precoce adequado em mais de 80% dos casos, indicando que ainda não são seguros para uso clínico sem supervisão, segundo um novo estudo.
A inteligência artificial generativa (IA) continua a não dispor dos processos de raciocínio necessários para uma utilização clínica segura, conclui um novo estudo.
Os chatbots de IA melhoraram a precisão diagnóstica quando lhes é fornecida informação clínica detalhada, mas continuaram a falhar na formulação de um diagnóstico diferencial adequado em mais de 80% dos casos, de acordo com investigadores da Mass General Brigham, uma rede sem fins lucrativos de hospitais e investigação sediada em Boston e um dos maiores sistemas de saúde dos Estados Unidos.
Os resultados do estudo, publicados na revista médica de acesso livre JAMA Network Open (fonte em inglês), mostram que os grandes modelos de linguagem (LLM) ficam aquém do nível de raciocínio exigido para utilização clínica.
“Apesar das melhorias contínuas, os grandes modelos de linguagem prontos a usar não estão preparados para uma implementação clínica, sem supervisão, ao nível exigido”, afirmou Marc Succi, coautor do estudo.
Acrescentou que a IA ainda não consegue replicar o diagnóstico diferencial, que está no centro do raciocínio clínico e que considera ser a 'arte da medicina'.
O diagnóstico diferencial é o primeiro passo para os profissionais de saúde identificarem uma doença, distinguindo-a de outras com sintomas semelhantes.
Como foram testados os modelos
A equipa de investigação analisou o desempenho de 21 LLM, incluindo as versões mais recentes do Claude, DeepSeek, Gemini, GPT e Grok.
Os modelos foram avaliados em 29 casos clínicos padronizados, usando uma ferramenta recém-desenvolvida denominada PrIME-LLM.
A ferramenta avalia a capacidade dos modelos em diferentes etapas do raciocínio clínico: formular um diagnóstico inicial, pedir exames adequados, chegar a um diagnóstico final e planear o tratamento.
Para simular a forma como os casos clínicos evoluem, os investigadores foram fornecendo gradualmente informação aos modelos, começando por dados básicos, como idade, sexo e sintomas do doente, e acrescentando depois resultados do exame físico e análises laboratoriais.
Num contexto clínico real, o diagnóstico diferencial é decisivo para avançar para a etapa seguinte. No estudo, porém, os modelos recebiam informação adicional para poderem passar à fase seguinte, mesmo quando falhavam na etapa do diagnóstico diferencial.
Os investigadores concluíram que os modelos de linguagem alcançaram elevada precisão nos diagnósticos finais, mas tiveram fraco desempenho na formulação de diagnósticos diferenciais e na gestão da incerteza.
A autora do estudo Arya Rao salientou que, ao avaliar os LLM por etapas, a investigação deixa de os tratar como simples candidatos a um exame e coloca-os na posição de um médico.
“Estes modelos são muito bons a indicar um diagnóstico final quando os dados estão completos, mas têm dificuldades no início aberto de um caso, quando há pouca informação”, acrescentou.
Os investigadores verificaram que todos os modelos falharam na produção de um diagnóstico diferencial adequado em mais de 80% das situações.
No diagnóstico final, as taxas de sucesso variaram de cerca de 60% para mais de 90%, consoante o modelo.
A maioria dos LLM mostrou melhor precisão quando, para além do texto, recebeu resultados laboratoriais e exames de imagem.
Os resultados identificaram um grupo de melhor desempenho que incluía o Grok 4, o GPT-5, o GPT-4.5, o Claude 4.5 Opus, o Gemini 3.0 Flash e o Gemini 3.0 Pro.
Profissionais de saúde continuam a ser essenciais
Ainda assim, os autores observaram que, apesar das melhorias entre versões e das vantagens dos modelos otimizados para raciocínio, os LLM disponíveis comercialmente ainda não atingiram o nível de inteligência exigido para uma utilização segura e continuam limitados na demonstração de raciocínio clínico avançado.
“Os nossos resultados reforçam que os grandes modelos de linguagem na área da saúde continuam a exigir um 'humano no circuito' e uma supervisão muito próxima”, referiu Succi.
Susana Manso García, membro do grupo de trabalho de Inteligência Artificial e Saúde Digital da Sociedade Espanhola de Medicina de Família e Comunitária, que não participou no estudo, afirmou que as conclusões transmitem uma mensagem clara ao público.
“O próprio estudo insiste em que [os modelos de linguagem] não devem ser usados para tomar decisões clínicas sem supervisão. Assim, embora a inteligência artificial represente uma ferramenta promissora, o juízo clínico humano continua a ser indispensável”, disse.
“A recomendação para o público é utilizar estas tecnologias com prudência e, perante qualquer preocupação com a saúde, consultar sempre um profissional de saúde.”