Reacciones

Un modelo de IA avanzada supera al diagnóstico médico en un estudio con casos clínicos y datos de urgencias

El uso de la inteligencia artificial (IA) para el diagnóstico médico se centra en la computación y el procesamiento de datos. Una investigación publicada en Science evalúa la capacidad de diagnóstico de un modelo de lenguaje de gran tamaño avanzado, que consiguió igualar o superar a profesionales de carne y hueso. El equipo llevó a cabo seis experimentos que incluyeron tanto casos clínicos estandarizados como un estudio con casos reales procedentes de historias clínicas en un servicio de urgencias, y se utilizó como referencia el rendimiento de cientos de médicos. La IA fue especialmente útil en situaciones de incertidumbre, como las fases iniciales del triaje en urgencias. No obstante, los autores resaltan que el modelo solo procesaba texto, mientras que la práctica clínica depende también de señales visuales y auditivas.

SMC España

30/04/2026 - 20:00 CEST

English version

Reacciones

Ignacio Miranda - IA diagnóstico médico

Ignacio Miranda Gómez

Responsable de la Unidad de Diagnóstico por Imagen de Mama en el International Breast Cancer Center (IBCC) y en el Centro Médico Teknon de Barcelona

International Breast Cancer Center IBCC (Barcelona)

Centro Médico Teknon

Science Media Centre España

El estudio analiza si un modelo de lenguaje avanzado (LLM) puede realizar tareas de razonamiento clínico al nivel de los médicos. El resultado principal es que el modelo iguala o supera a los profesionales en varias pruebas, incluso en algunos casos reales de urgencias.

Para evaluarlo, los investigadores compararon el modelo con cientos de médicos en seis tipos de tareas: diagnóstico en casos complejos, explicación del razonamiento clínico, decisiones de tratamiento, casos diagnósticos clásicos, estimación de probabilidades y situaciones reales en urgencias.

Los resultados muestran un rendimiento muy alto: el modelo acierta el diagnóstico en la mayoría de los casos (hasta casi el 98 % si se incluyen diagnósticos cercanos), selecciona correctamente pruebas médicas, obtiene puntuaciones casi perfectas en razonamiento clínico y supera a médicos en decisiones de tratamiento. También muestra un rendimiento comparable o superior en urgencias, especialmente, en fases iniciales con poca información.

Sin embargo, el estudio tiene limitaciones importantes: se basa solo en texto, utiliza casos más estructurados que la práctica real (casos más ‘limpios’), no cubre todas las áreas de la medicina y no sustituye el juicio clínico completo.

En conclusión, estos modelos ya superan muchos estándares clásicos de razonamiento médico y podrían mejorar el diagnóstico y la toma de decisiones. Aun así, es necesario validarlos en entornos reales y definir cómo integrarlos de forma segura.

La idea central no es reemplazar al médico, sino usar la IA como una herramienta de apoyo potente, especialmente, en situaciones complejas o con incertidumbre.

El estudio es gran calidad. Está bien diseñado, compara directamente con médicos, incluye distintos tipos de pruebas y hasta casos reales de urgencias. Aun así, no es una evidencia definitiva sino una demostración sólida de capacidad en condiciones controladas.

Como decía, tiene algunas limitaciones importantes. Solo analiza texto (sin exploración física ni imágenes), usa casos más ordenados que en la práctica clínica real y no mide si mejora resultados en pacientes. Además, la comparación con médicos es algo artificial y no profundiza en errores críticos. En resumen, evalúa rendimiento teórico más que práctica clínica real.

En cuanto a implicaciones, confirma que la IA ya es competitiva en tareas cognitivas médicas y mejora lo visto en estudios previos. Sin embargo, todavía faltan ensayos clínicos reales, validación de seguridad y pruebas de impacto en pacientes antes de adoptarla ampliamente.

Como comentaba, la integración más realista no es sustituir a los médicos, sino usar la IA como apoyo para una segunda opinión, sistema de alerta, ayuda al razonamiento y soporte en el triaje, especialmente, en situaciones de presión y poca información. La clave es usarla como ‘copiloto’, no de forma autónoma.

El rol del médico cambia, pero sigue siendo esencial. Tendrá menos peso el memorizar o enumerar diagnósticos y más el integrar información compleja, tomar decisiones, tratar con pacientes y supervisar la IA. En conjunto, el escenario más probable es que la combinación médico + IA supere claramente a cualquiera por separado.

Declara no tener conflicto de interés

Language ES

2024 04 30 IA diagnóstico Ewen Harrison

Ewen Harrison

Catedrático de Cirugía y Ciencia de Datos y codirector del Centro de Informática Médica de la Universidad de Edimburgo (Reino Unido)

Science Media Centre Reino Unido

Este es un estudio importante que demuestra que los sistemas modernos de IA pueden desempeñarse bien en una de las tareas centrales de médicos y enfermeras: recopilar la información disponible sobre un paciente y sugerir qué diagnósticos deberían considerarse.

Esto es relevante: estos sistemas ya no se limitan a aprobar exámenes médicos o resolver casos de prueba artificiales. Están empezando a parecer herramientas útiles de segunda opinión para los clínicos, especialmente, cuando es importante contemplar un abanico más amplio de posibles diagnósticos y evitar pasar por alto algo importante.

Pero esto no significa que la IA deba introducirse rápidamente en la atención clínica sin límites. Elaborar una buena lista de diagnósticos posibles no es lo mismo que mejorar la atención al paciente. Aún necesitamos estudios que demuestren que estas herramientas ayudan a médicos y enfermeras a tomar mejores decisiones, reducir daños, evitar pruebas innecesarias y funcionar con seguridad en hospitales y consultas de atención primaria con alta carga de trabajo.

Este estudio hace avanzar el campo, pero por sí solo no cambia la práctica clínica. La vía responsable no es prohibir estos sistemas, pero tampoco permitir que se adopten de forma despreocupada. Deben probarse en entornos clínicos reales, utilizarse como herramientas de segunda opinión en lugar de sustitutos de los profesionales sanitarios y evaluarse en función de los resultados que realmente importan a los pacientes: una atención mejor, más segura y más rápida.

Conflicto de interés: “Los autores principales y yo somos editores en NEJM AI”.

Language ES

2024 04 30 IA diagnóstico Wei Xing

Wei Xing

Profesor adjunto en la Escuela de Ciencias Matemáticas y Físicas de la Universidad de Sheffield (Reino Unido)

Science Media Centre Reino Unido

Este es uno de los mayores estudios de evaluación de modelos de lenguaje de gran tamaño (LLM) en razonamiento clínico hasta la fecha y la inclusión de datos reales de servicios de urgencias supone un avance genuino. Sin embargo, dos hallazgos del artículo merecen un análisis más profundo del que han recibido. En un experimento de razonamiento sobre la gestión clínica, los médicos que utilizaron GPT-4 obtuvieron un 41 %, sin mejorar el 42 % alcanzado por GPT-4 por sí solo y muy por encima del 34 % de los médicos sin IA, lo que sugiere que los facultativos pueden tender inconscientemente a apoyarse en la respuesta de la IA, en lugar de pensar de forma independiente. Esta tendencia podría volverse más significativa a medida que la IA se utilice de forma más habitual en entornos clínicos.

Los datos del mundo real de 76 pacientes en un único centro académico de élite ofrecen una imagen más matizada de lo que sugiere el titular: o1 [la herramienta utilizada] identificó el diagnóstico correcto en el 67 % de los casos de triaje, frente al 55 % y el 50 % de los dos médicos responsables, una diferencia real, pero sin un análisis complementario sobre dónde o en qué casos falla el modelo. Sigue siendo completamente desconocido si los errores se concentran en pacientes de edad avanzada, hablantes no nativos de inglés o personas con presentaciones atípicas y, sin ese análisis, una alta precisión media ofrece una tranquilidad limitada. Lo que demuestra este estudio es que un LLM puede superar a los médicos en tareas estructuradas de razonamiento basadas en texto bajo condiciones controladas. No demuestra que la IA sea segura para su uso clínico rutinario, ni que el público deba recurrir a herramientas de IA de libre acceso como sustituto del consejo médico.