Reacción a "Dos modelos de IA muestran su utilidad para el manejo de pacientes con simulaciones y datos reales"

Wei Xing

Profesor adjunto en la Escuela de Ciencias Matemáticas y Físicas de la Universidad de Sheffield (Reino Unido)

Sobre el artículo AIME

Se trata de un estudio metodológicamente riguroso. El diseño es aleatorizado y ciego, y las correcciones estadísticas para comparaciones múltiples están bien aplicadas. Sin embargo, este resultado necesita contexto. Es el tercer artículo importante de este grupo sobre AMIE. El estudio previo más reciente evaluó AMIE con pacientes reales, y en ese caso los médicos elaboraron planes de tratamiento más prácticos y coste-efectivos que el sistema. Este nuevo trabajo vuelve a un entorno completamente simulado y no aborda ese hallazgo anterior, por lo que sus resultados positivos deben interpretarse con cautela.

También está la cuestión de de dónde proviene realmente la ventaja de AMIE. En uno de los puntos de referencia del estudio, modelos de IA de propósito general, sin entrenamiento clínico específico, obtuvieron resultados similares. Esto sugiere que la ventaja puede deberse más al progreso general de la IA que al sistema específico de AMIE.

AMIE se evalúa con pacientes simulados guionizados y comunicación exclusivamente por texto. Los propios autores dejan claro que no está listo para uso clínico y este entorno es muy distinto de la práctica médica real”.

Sobre el artículo MIRA

Este estudio también es riguroso y una de sus fortalezas frente al de AMIE es que utiliza historiales clínicos reales en lugar de escenarios simulados, además de incluir controles de seguridad adicionales. Sin embargo, la principal conclusión —que la IA supera a los médicos en precisión diagnóstica— está impulsada sobre todo por enfermedades con diagnósticos claros, como la apendicitis o la pancreatitis.

En casos como la neumonía o las infecciones del tracto urinario, dos de los motivos más frecuentes de consulta en urgencias, tanto la IA como los médicos obtuvieron los peores resultados, y la diferencia entre ambos fue mínima.

Además, la IA solicitó aproximadamente el doble de análisis de sangre que los médicos. Más información por sí sola puede explicar una mayor precisión, por lo que no se trata de una comparación completamente equivalente.

Es una simulación retrospectiva basada en historiales clínicos antiguos. No implica pacientes reales, ni entornos clínicos en tiempo real, ni interacción con médicos en ejercicio. Por tanto, aún no permite concluir cómo funcionaría en un hospital real.

Language ES