Los modelos de IA siguen sin ser seguros para el diagnóstico médico sin supervisión

Un equipo de Estados Unidos ha analizado el rendimiento de 21 grandes modelos de lenguaje basados en inteligencia artificial (IA) —incluyendo ChatGPT, Gemini o Grok— para el diagnóstico clínico. Sus conclusiones son que, a pesar de los avances en estos modelos, su capacidad de razonamiento sigue siendo limitada para el diagnóstico inicial y que no se debe confiar en ellos sin la supervisión de un profesional médico. Según los autores, que publican los resultados en JAMA Network Open y pretendían “ayudar a distinguir la realidad del hype en el uso de estas herramientas”, los resultados “refuerzan la idea de que los modelos de lenguaje en el ámbito sanitario siguen requiriendo la intervención humana y una supervisión muy rigurosa”. 

13/04/2026 - 17:00 CEST
Reacciones

Susana Manso - IA salud

Susana Manso García

Médica de familia, miembro del grupo de trabajo de Inteligencia Artificial y Salud Digital de la Sociedad Española de Medicina de Familia y Comunitaria (semFYC)

Science Media Centre España

El artículo presenta, en conjunto, una alta calidad metodológica y una relevancia clínica notable, aunque no está exento de limitaciones que conviene tener en cuenta.  

Publicado en JAMA Network Open, se apoya en un diseño sistemático, transparente y bien estructurado. 

Uno de sus puntos fuertes es la inclusión de 21 modelos de lenguaje de última generación, lo que permite una comparación amplia y actualizada del estado del arte. Además, el uso de casos clínicos realistas procedentes del MSD Manual aporta un enfoque más cercano a la práctica clínica real que los clásicos exámenes tipo test. A esto se suma la introducción de una métrica innovadora, el índice PrIME-LLM, que no se limita a medir la precisión final, sino que evalúa el razonamiento clínico de forma multidimensional. El volumen de datos analizados —más de 16.000 respuestas evaluadas— refuerza la robustez de los resultados. Sin embargo, al tratarse de un estudio transversal y experimental, no permite extraer conclusiones sobre el impacto real en pacientes o en entornos clínicos reales. 

En cuanto a su encaje con la evidencia previa, el trabajo confirma y amplía hallazgos ya conocidos sobre los modelos de lenguaje en medicina. Estudios anteriores habían demostrado que estos sistemas pueden alcanzar buenos resultados en pruebas tipo USMLE, lo que generó cierto optimismo sobre su potencial clínico. Sin embargo, este artículo matiza esa visión al demostrar que un buen rendimiento en preguntas cerradas no se traduce necesariamente en un razonamiento clínico sólido. De hecho, pone de manifiesto debilidades importantes ya señaladas previamente, como las alucinaciones, la dificultad para manejar la incertidumbre y la tendencia a ofrecer conclusiones sin justificar adecuadamente el proceso. 

El hallazgo más relevante es que, aunque los modelos pueden desempeñarse razonablemente bien en el diagnóstico final y en propuestas de manejo, fallan de forma significativa en una de las fases más críticas del razonamiento médico: la elaboración del diagnóstico diferencial. 

Este punto tiene implicaciones importantes. Por un lado, cuestiona directamente la idea de utilizar estos sistemas como herramientas diagnósticas autónomas. Por otro, refuerza un enfoque más prudente, en el que los modelos de lenguaje se utilicen como apoyo al profesional sanitario, especialmente en tareas estructuradas o con menor grado de incertidumbre. Además, la propuesta del marco PrIME-LLM abre la puerta a futuras evaluaciones más completas y podría contribuir al desarrollo de estándares regulatorios en este ámbito. En cierto modo, el artículo actúa como un contrapunto al entusiasmo basado en métricas simplistas y dirige la atención hacia lo que realmente importa en la práctica clínica: el proceso de razonamiento. 

No obstante, es importante interpretar los resultados a la luz de sus limitaciones. El estudio se desarrolla en un entorno experimental basado en viñetas clínicas, lo que implica que no se evalúan aspectos fundamentales de la práctica real, como la interacción médico-paciente o la complejidad contextual de los casos. Existe también la posibilidad de contaminación de datos, ya que los casos utilizados son públicos y podrían haber formado parte del entrenamiento de los modelos. Además, los sistemas se evaluaron sin optimización adicional, es decir, sin acceso a herramientas externas, bases de datos clínicas o sistemas de apoyo, lo que podría infraestimar su rendimiento en entornos reales más integrados. La evaluación de las respuestas fue realizada por estudiantes de Medicina, lo que introduce cierto grado de subjetividad. Finalmente, la métrica PrIME-LLM, aunque prometedora, es aún reciente y no está ampliamente validada. 

Desde el punto de vista de la ciudadanía, el mensaje que se desprende del estudio debe ser claro y equilibrado. Los modelos de lenguaje tienen un potencial significativo en salud: pueden ayudar a explicar información médica, organizar datos o servir como apoyo a los profesionales. Sin embargo, todavía no son fiables como sustitutos de los médicos, especialmente en situaciones complejas o en el momento del diagnóstico inicial. El propio estudio insiste en que no deben utilizarse para tomar decisiones clínicas sin supervisión. Por tanto, aunque la inteligencia artificial representa una herramienta prometedora, sigue siendo imprescindible el criterio clínico humano. La recomendación para la población es utilizar estas tecnologías con cautela y, ante cualquier problema de salud, recurrir siempre a un profesional sanitario. 

En definitiva, se trata de un estudio sólido y bien diseñado que aporta evidencia relevante en un momento clave. Su principal contribución es demostrar que, a pesar de los avances, los modelos de lenguaje aún presentan limitaciones importantes en el núcleo del razonamiento clínico, especialmente en la gestión de la incertidumbre y la generación de diagnósticos diferenciales. Esto tiene implicaciones directas para su uso clínico, su regulación y la forma en que la sociedad percibe su papel en la medicina. 

No declara conflicto de interés
ES
Publicaciones
Large Language Model Performance and Clinical Reasoning Tasks
    • Artículo de investigación
    • Revisado por pares
Revista
JAMA Network Open
13/04/2026
Autores

 Rao et al.

Tipo de estudio:
  • Artículo de investigación
  • Revisado por pares
Las 5W +1
Publica
FAQ
Contacto