Investigadores concluem que modelo de IA supera médicos humanos na maioria das tarefas de raciocínio clínico, do diagnóstico à gestão dos doentes.
Modelos de inteligência artificial superaram médicos nas decisões clínicas nos serviços de urgência, segundo um novo estudo.
Investigadores da Harvard Medical School e do Beth Israel Deaconess Medical Center, nos Estados Unidos, compararam a inteligência artificial com médicos humanos numa vasta gama de tarefas de raciocínio clínico.
Concluíram que os grandes modelos de linguagem (LLM) superaram os médicos em várias tarefas, desde tomar decisões na urgência com base nas informações disponíveis, a identificar diagnósticos prováveis e a escolher os passos seguintes na condução do caso.
"Testámos o modelo de IA em praticamente todos os referenciais e ele ultrapassou tanto os modelos anteriores como os nossos valores de referência com médicos", afirmou Arjun Manrai, coautor sénior e professor na Harvard Medical School.
"Isso não significa, porém, que a IA vá necessariamente melhorar os cuidados: a forma e os contextos em que deve ser utilizada continuam pouco estudados e precisamos urgentemente de ensaios prospetivos rigorosos para avaliar o impacto da IA na prática clínica."
Como foi testado o modelo de IA?
Os investigadores avaliaram primeiro o o1-preview, o modelo de raciocínio da OpenAI lançado em 2024, ao qual apresentaram vários casos clínicos, incluindo conferências de casos publicadas e registos reais de serviços de urgência.
A IA superou os médicos humanos na maioria das experiências, sobretudo no raciocínio sobre a abordagem, no raciocínio clínico, na documentação e em cenários reais de urgência com informação limitada.
"Os modelos estão cada vez mais capazes. Antes avaliávamos os modelos com testes de escolha múltipla; agora obtêm sistematicamente resultados perto dos 100% e deixámos de conseguir acompanhar os progressos porque já chegámos ao teto", afirmou o coautor principal Peter Brodeur, bolseiro clínico em medicina na Harvard Medical School, a trabalhar no Beth Israel Deaconess.
Num dos testes, os investigadores pediram ao LLM – o o1 e o GPT-4o – que avaliasse doentes em vários momentos de uma passagem típica pelo serviço de urgência, desde a triagem inicial até às decisões mais tardias de internamento.
Em cada fase, o modelo recebia apenas a informação disponível naquele momento e era solicitado a indicar diagnósticos prováveis e a recomendar o passo seguinte.
A maior diferença entre a IA e os médicos verificou‑se na fase de triagem, em que há menos informação sobre o doente.
Tal como acontece com os médicos, os modelos de IA foram melhorando a capacidade de diagnóstico à medida que ficava disponível mais informação.
"Embora a aplicação de IA para apoiar a decisão clínica seja por vezes vista como uma aposta de alto risco, uma utilização mais ampla destas ferramentas poderá contribuir para reduzir os custos humanos e financeiros do erro diagnóstico, do atraso e da falta de acesso", escreveram os autores.
Necessária mais investigação
Os investigadores defendem a realização de ensaios prospetivos para avaliar estas tecnologias em contextos reais e apelam a que os sistemas de saúde invistam em infraestruturas de computação e desenvolvam enquadramentos que permitam integrar com segurança ferramentas de IA nos fluxos de trabalho clínicos.
"Um modelo pode acertar no diagnóstico principal, mas sugerir exames desnecessários que podem expor o doente a riscos", afirmou Brodeur. "Os seres humanos devem continuar a ser a referência última na avaliação do desempenho e da segurança."
O estudo tem algumas limitações. Os autores salientam que os resultados refletem apenas o desempenho dos modelos e se concentram sobretudo na versão de pré-visualização do modelo o1, entretanto substituída por modelos mais recentes, como o o3 da OpenAI.
"Embora se espere que o desempenho se mantenha ou melhore com os modelos mais recentes, são necessários novos estudos para perceber como varia o desempenho entre modelos e para analisar de que forma humanos e LLM podem colaborar", escreveram os autores.