Autor/es reacciones

Ignacio Miranda Gómez

Responsable de la Unidad de Diagnóstico por Imagen de Mama en el International Breast Cancer Center (IBCC) y en el Centro Médico Teknon de Barcelona

El estudio analiza si un modelo de lenguaje avanzado (LLM) puede realizar tareas de razonamiento clínico al nivel de los médicos. El resultado principal es que el modelo iguala o supera a los profesionales en varias pruebas, incluso en algunos casos reales de urgencias. 

Para evaluarlo, los investigadores compararon el modelo con cientos de médicos en seis tipos de tareas: diagnóstico en casos complejos, explicación del razonamiento clínico, decisiones de tratamiento, casos diagnósticos clásicos, estimación de probabilidades y situaciones reales en urgencias. 

Los resultados muestran un rendimiento muy alto: el modelo acierta el diagnóstico en la mayoría de los casos (hasta casi el 98 % si se incluyen diagnósticos cercanos), selecciona correctamente pruebas médicas, obtiene puntuaciones casi perfectas en razonamiento clínico y supera a médicos en decisiones de tratamiento. También muestra un rendimiento comparable o superior en urgencias, especialmente, en fases iniciales con poca información. 

Sin embargo, el estudio tiene limitaciones importantes: se basa solo en texto, utiliza casos más estructurados que la práctica real (casos más ‘limpios’), no cubre todas las áreas de la medicina y no sustituye el juicio clínico completo. 

En conclusión, estos modelos ya superan muchos estándares clásicos de razonamiento médico y podrían mejorar el diagnóstico y la toma de decisiones. Aun así, es necesario validarlos en entornos reales y definir cómo integrarlos de forma segura. 

La idea central no es reemplazar al médico, sino usar la IA como una herramienta de apoyo potente, especialmente, en situaciones complejas o con incertidumbre. 

El estudio es gran calidad. Está bien diseñado, compara directamente con médicos, incluye distintos tipos de pruebas y hasta casos reales de urgencias. Aun así, no es una evidencia definitiva sino una demostración sólida de capacidad en condiciones controladas. 

Como decía, tiene algunas limitaciones importantes. Solo analiza texto (sin exploración física ni imágenes), usa casos más ordenados que en la práctica clínica real y no mide si mejora resultados en pacientes. Además, la comparación con médicos es algo artificial y no profundiza en errores críticos. En resumen, evalúa rendimiento teórico más que práctica clínica real.  

En cuanto a implicaciones, confirma que la IA ya es competitiva en tareas cognitivas médicas y mejora lo visto en estudios previos. Sin embargo, todavía faltan ensayos clínicos reales, validación de seguridad y pruebas de impacto en pacientes antes de adoptarla ampliamente.  

Como comentaba, la integración más realista no es sustituir a los médicos, sino usar la IA como apoyo para una segunda opinión, sistema de alerta, ayuda al razonamiento y soporte en el triaje, especialmente, en situaciones de presión y poca información. La clave es usarla como ‘copiloto’, no de forma autónoma. 

El rol del médico cambia, pero sigue siendo esencial. Tendrá menos peso el memorizar o enumerar diagnósticos y más el integrar información compleja, tomar decisiones, tratar con pacientes y supervisar la IA. En conjunto, el escenario más probable es que la combinación médico + IA supere claramente a cualquiera por separado. 

ES