Reacciones

Dos modelos de IA muestran su utilidad para el manejo de pacientes con simulaciones y datos reales

La revista Nature publica dos estudios independientes que muestran la capacidad de grandes modelos de lenguaje basados en inteligencia artificial (IA) para apoyar distintas fases del manejo de pacientes en entornos controlados. El primero analizó MIRA, un agente de IA que opera con historias clínicas electrónicas, el cual alcanzó una precisión diagnóstica del casi 88 %, frente al 78 % de un panel de médicos. El segundo comparó AMIE, un modelo de razonamiento clínico conversacional, con 21 médicos de atención primaria en 100 escenarios de múltiples visitas. AMIE obtuvo rendimientos comparables o incluso superiores a los médicos en precisión de tratamientos, pruebas solicitadas y adherencia a guías clínicas. Los modelos se basan en simulaciones o datos retrospectivos, lo que limita sus conclusiones. Los resultados son similares a otro modelo publicado en Science el pasado mes de abril.

SMC España

17/06/2026 - 17:00 CEST

English version

Reacciones

2026 06 17 IA pacientes Ignacio Miranda Gómez

Ignacio Miranda Gómez

Responsable de la Unidad de Diagnóstico por Imagen de Mama en el International Breast Cancer Center (IBCC) y en el Centro Médico Teknon de Barcelona

International Breast Cancer Center IBCC (Barcelona)

Centro Médico Teknon

Science Media Centre España

Los últimos avances en IA médica muestran que los sistemas más avanzados ya pueden alcanzar niveles de rendimiento comparables e incluso superiores a los de médicos en tareas clínicas específicas como el diagnóstico, la selección de pruebas, la prescripción de tratamientos y el seguimiento de pacientes.

Dos estudios recientes, centrados en los sistemas AMIE y MIRA, representan un salto cualitativo respecto a generaciones anteriores de IA médica. Mientras que AMIE destaca por su capacidad para mantener conversaciones clínicas complejas y gestionar pacientes a lo largo de múltiples visitas, MIRA da un paso más al integrarse en una historia clínica electrónica y ejecutar acciones clínicas como solicitar pruebas diagnósticas, prescribir medicamentos o recomendar ingresos hospitalarios.

Los resultados muestran que ambos sistemas fueron capaces de igualar o superar el rendimiento de médicos en entornos simulados, especialmente en aspectos como la adherencia a guías clínicas, la precisión de las recomendaciones y la seguridad farmacológica.

Sin embargo, los propios investigadores subrayan que estas tecnologías aún no están preparadas para su uso autónomo en la práctica clínica. Los estudios se han realizado en entornos controlados y con pacientes simulados, por lo que todavía es necesario demostrar su eficacia y seguridad en hospitales y consultas reales.

La evidencia actual apunta a un modelo de colaboración entre profesionales sanitarios e IA, más que a la sustitución del médico. En este escenario, la IA asumiría tareas analíticas, administrativas y de apoyo a la toma de decisiones, mientras que los profesionales seguirían siendo responsables de la supervisión clínica, la comunicación con los pacientes, la gestión de la incertidumbre y las decisiones finales sobre la atención sanitaria.

Estos avances sugieren que la inteligencia artificial podría convertirse en los próximos años en un importante aliado para mejorar la calidad asistencial, reducir la carga administrativa y facilitar una atención más consistente y basada en la evidencia, siempre bajo supervisión humana.

Tanto AMIE como MIRA no son únicos en su campo: recientemente se presentó en Science un modelo avanzado de IA capaz de superar al diagnóstico médico en un entorno controlado.

Los tres trabajos representan tres generaciones distintas de IA médica y compararlos ayuda a entender hacia dónde se dirige el campo. Si AMIE demuestra que una IA puede entrevistar como un médico y el modelo ya recogido en Science demuestra que puede razonar como un médico, MIRA intenta demostrar que puede trabajar como un médico dentro del hospital. El avance más disruptivo no es que MIRA diagnostique algo mejor que otros modelos, sino que convierte ese razonamiento en acciones clínicas estructuradas (pedir pruebas, prescribir, programar procedimientos e ingresos). Por eso, desde el punto de vista de transformación del sistema sanitario, MIRA representa probablemente el paso más cercano hasta ahora a un verdadero ‘copiloto clínico’ integrado en la práctica hospitalaria.

Los tres trabajos coinciden en un mensaje común, la inteligencia artificial está alcanzando niveles de rendimiento equiparables o superiores a los de muchos profesionales en tareas específicas de diagnóstico y toma de decisiones. Sin embargo, los investigadores subrayan que todos los resultados proceden de entornos controlados o simulados y que todavía son necesarios estudios prospectivos en pacientes reales para confirmar su seguridad, eficacia e impacto sobre los resultados clínicos.

Lejos de plantear la sustitución de los profesionales sanitarios, los autores consideran que el papel más prometedor de estas tecnologías será el de apoyo al médico. En este modelo, la IA asumiría tareas repetitivas, administrativas o de análisis de información, mientras que los profesionales continuarían siendo responsables de la supervisión clínica, la toma final de decisiones y la relación humana con los pacientes.

No declara conflicto de interés

Language ES

2026 06 17 IA pacientes Alfonso Valencia

Alfonso Valencia

Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)

Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS)

Science Media Centre España

Estos dos estudios independientes presentan sistemas de IA para la gestión clínica de pacientes. Ambos trabajos representan avances técnicos significativos, que deben interpretarse en contexto, y no sistemas implementados en hospitales reales.

MIRA es un agente autónomo que opera en un entorno simulado de historia clínica electrónica capaz de realizar entrevistas, solicitar pruebas diagnósticas y proponer tratamientos. Evaluado en centenares de casos reales de urgencias, alcanzó o superó el rendimiento de los médicos en muchas de las patologías evaluadas, pero no en todas. El segundo sistema, AMIE, es un sistema conversacional optimizado para el razonamiento clínico a lo largo de múltiples visitas. Este también resultó tan efectivo como un panel de médicos de atención primaria estando más alineado con las recomendaciones y guías clínicas, una ortodoxia que puede, o no, ser positiva en entornos reales donde la adaptación a casos específicos y la flexibilidad son tan importantes.

Estos desarrollos pueden verse como un avance técnico con potencial para mejorar los procesos en hospitales, pero no son aún sistemas instalados en el mundo real.

Desde el punto de vista técnico, ante sistemas tan complejos debemos esperar de la utilización de estos sistemas por otros investigadores para estar seguros de la validez de los resultados (por ejemplo, posibles contaminaciones entre datos de entrenamiento y aplicación, un problema típico y grave en sistemas que usan datos tan masivos que hace muy difícil evaluar su calidad y origen), más allá de la evaluación previa a su publicación. En este sentido, que los sistemas sean abiertos (se puedan usar por otros) es esencial. Mientras que MIRA es abierto, AMIE no lo es, lo que hace imposible evaluarlo independientemente y, por tanto, no es algo de lo que nos podamos fiar en última instancia.

En cualquier caso, es importante resaltar que nos movemos en el mundo de los desarrollos y todavía no en el de la implementación en sistemas complejos y regulados como son los hospitales. En este sentido las limitaciones son sustanciales. No son sistemas listos para interaccionar con la complejidad de los pacientes, médicos y sistemas reales, incluyendo las muchas interacciones que no son puramente texto y que son determinantes en la práctica real.

En resumen, estas son publicaciones científicas relevantes que dejan claro que las aplicaciones de IA en entornos de decisión médica avanzan a gran velocidad, en buena medida de la mano de grandes compañías, pero no solo (afortunadamente). Para llegar a implementarse en sistemas reales aún faltan estudios prospectivos con pacientes reales y supervisión ética, siguiendo el proceso usual –y requerido legalmente– para cualquier aplicación en medicina.

No declara conflicto de interés

Language ES

2026 06 17 IA pacientes Catherine Pope

Catherine Pope

Catedrática de Sociología Médica en la Universidad de Oxford (Reino Unido)

Science Media Centre Reino Unido

Los artículos de Ferber et al. y Lievin et al. aportan evidencia relevante sobre los posibles usos clínicos de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Es fácil dejarse cautivar por los titulares que aseguran que este tipo de LLM ‘superan a los médicos’, pero, como siempre, el diablo está en los detalles. Ambos estudios se basan en simulaciones: el de Ferber et al. utiliza conversaciones simuladas a partir de notas clínicas de pacientes, mientras que el segundo recurre a formatos de examen con actores que recrean escenarios médicos con fines de formación y evaluación de médicos. Todo esto sigue estando bastante alejado del mundo real de la atención sanitaria, que es desordenado, complejo y profundamente humano.

Ambos trabajos muestran que los LLM pueden imitar ciertos aspectos del desempeño de médicos experimentados, pero —y esto es clave— reconocen también que, aunque el potencial es prometedor, aún se necesita mucha más investigación antes de que estos modelos puedan o deban implementarse en la práctica clínica. Como señala el artículo de Ferber et al., su uso en el mundo real tendría que darse en colaboración con los profesionales sanitarios: es poco probable que estas tecnologías sustituyan a los médicos, y muchos argumentarán que, en lo esencial, no pueden reemplazar los aspectos humanos fundamentales del cuidado sanitario.

Conflictos de interés: “Realizo investigación sobre la organización y prestación de la atención sanitaria, y me interesa la salud digital y las tecnologías sanitarias. También soy codirectora del máster Salud Digital Aplicada (MSc Applied Digital Health). Entre mis proyectos actuales se incluye un estudio sobre escribas de IA (tecnologías de voz ambiental, AVT) en consultas de atención primaria (dirigido por Abi Eccles y John Powell), que contará con la participación de varios proveedores comerciales de AVT, así como un proyecto sobre ‘navegación inteligente’ asistida por IA para el acceso a la atención primaria en el mismo día (NIHR503515), en colaboración con el grupo Visiba. Anteriormente he investigado la implementación de sistemas digitales de triaje en los servicios 999 y 111 del NHS.

Soy fideicomisaria de la Fundación para la Sociología de la Salud y la Enfermedad, del Green Templeton College y de la Sociedad para el Estudio de la Organización en la Atención Sanitaria.

Soy investigadora sénior del NIHR y presido el comité de nombramientos de investigadores sénior del NIHR. También he formado parte de distintos paneles de financiación del NIHR y he evaluado propuestas de investigación e informes finales para este organismo.

Recibo derechos de autor de Wiley, Macmillan y McGraw Hill (así como de la ALCS, que gestiona derechos de autor en nombre de los autores)”.

Language ES

2026 06 17 IA pacientes Midhun Parakkal Unni

Midhun Parakkal Unni

Investigador académico en Inteligencia artificial para la Salud en la Universidad de Sheffield (Reino Unido)

Universidad de Sheffield

Science Media Centre Reino Unido

Los autores desarrollaron agentes conversacionales para la gestión de enfermedades, evaluaron su rendimiento en escenarios simulados y lo compararon con el de médicos en condiciones idénticas.

Generalizar más allá de los datos con los que se ha entrenado un modelo suele ser difícil en los sistemas de aprendizaje automático y no está claro cómo se comportan los modelos fundacionales tipo LLM en situaciones completamente nuevas. Por eso, es imprescindible realizar pruebas a gran escala en el mundo real antes de afirmar que estos sistemas integrados con LLM son útiles en la práctica clínica.

Dicho esto, los artículos están escritos con rigor y representan un logro extraordinario de ingeniería. Sus conclusiones están respaldadas por datos, siempre que no se extrapolen indebidamente al mundo real. Una de sus principales limitaciones es la dependencia de un paciente simulado basado en un LLM. Además, existe la posibilidad de que los modelos hayan tenido acceso a trabajos publicados que utilizan el conjunto de datos MIMIC-4 (al menos en el caso del agente MIRA), lo que podría haber mejorado su rendimiento. Dado que muchos casos reales se repiten, esto quizá no sea un problema en la práctica, aunque no siempre es así.

En el estado actual de la técnica, esto supone claramente un avance respecto a los sistemas de preguntas y respuestas de nivel experto basados en LLM, y representa un paso necesario antes de poder evaluar estas herramientas en el mundo real. Estos estudios son relevantes para el desarrollo de infraestructuras de ingeniería destinadas a futuras evaluaciones clínicas. Sin embargo, dado el rendimiento actual de los LLM, los resultados no son sorprendentes. Habrá que ver cuáles son los verdaderos desafíos cuando estas tecnologías se apliquen en la práctica y los pacientes interactúen con un agente en situaciones críticas, ya que las simulaciones pueden no reflejar toda la complejidad del comportamiento humano.

Conflictos de interés: “He trabajado anteriormente en las siguientes empresas: Tata Consultancy Services Limited (India), HCL Technologies Limited (India) y Gaitq Limited (Reino Unido)”.

Language ES

2026 06 17 IA pacientes Wei Xing

Wei Xing

Profesor adjunto en la Escuela de Ciencias Matemáticas y Físicas de la Universidad de Sheffield (Reino Unido)

Science Media Centre Reino Unido

Sobre el artículo AIME

Se trata de un estudio metodológicamente riguroso. El diseño es aleatorizado y ciego, y las correcciones estadísticas para comparaciones múltiples están bien aplicadas. Sin embargo, este resultado necesita contexto. Es el tercer artículo importante de este grupo sobre AMIE. El estudio previo más reciente evaluó AMIE con pacientes reales, y en ese caso los médicos elaboraron planes de tratamiento más prácticos y coste-efectivos que el sistema. Este nuevo trabajo vuelve a un entorno completamente simulado y no aborda ese hallazgo anterior, por lo que sus resultados positivos deben interpretarse con cautela.

También está la cuestión de de dónde proviene realmente la ventaja de AMIE. En uno de los puntos de referencia del estudio, modelos de IA de propósito general, sin entrenamiento clínico específico, obtuvieron resultados similares. Esto sugiere que la ventaja puede deberse más al progreso general de la IA que al sistema específico de AMIE.

AMIE se evalúa con pacientes simulados guionizados y comunicación exclusivamente por texto. Los propios autores dejan claro que no está listo para uso clínico y este entorno es muy distinto de la práctica médica real”.

Sobre el artículo MIRA

Este estudio también es riguroso y una de sus fortalezas frente al de AMIE es que utiliza historiales clínicos reales en lugar de escenarios simulados, además de incluir controles de seguridad adicionales. Sin embargo, la principal conclusión —que la IA supera a los médicos en precisión diagnóstica— está impulsada sobre todo por enfermedades con diagnósticos claros, como la apendicitis o la pancreatitis.

En casos como la neumonía o las infecciones del tracto urinario, dos de los motivos más frecuentes de consulta en urgencias, tanto la IA como los médicos obtuvieron los peores resultados, y la diferencia entre ambos fue mínima.

Además, la IA solicitó aproximadamente el doble de análisis de sangre que los médicos. Más información por sí sola puede explicar una mayor precisión, por lo que no se trata de una comparación completamente equivalente.

Es una simulación retrospectiva basada en historiales clínicos antiguos. No implica pacientes reales, ni entornos clínicos en tiempo real, ni interacción con médicos en ejercicio. Por tanto, aún no permite concluir cómo funcionaría en un hospital real.