Autor/es reacciones

Midhun Parakkal Unni

Investigador académico en Inteligencia artificial para la Salud en la Universidad de Sheffield (Reino Unido)

Los autores desarrollaron agentes conversacionales para la gestión de enfermedades, evaluaron su rendimiento en escenarios simulados y lo compararon con el de médicos en condiciones idénticas. 

Generalizar más allá de los datos con los que se ha entrenado un modelo suele ser difícil en los sistemas de aprendizaje automático y no está claro cómo se comportan los modelos fundacionales tipo LLM en situaciones completamente nuevas. Por eso, es imprescindible realizar pruebas a gran escala en el mundo real antes de afirmar que estos sistemas integrados con LLM son útiles en la práctica clínica. 

Dicho esto, los artículos están escritos con rigor y representan un logro extraordinario de ingeniería. Sus conclusiones están respaldadas por datos, siempre que no se extrapolen indebidamente al mundo real. Una de sus principales limitaciones es la dependencia de un paciente simulado basado en un LLM. Además, existe la posibilidad de que los modelos hayan tenido acceso a trabajos publicados que utilizan el conjunto de datos MIMIC-4 (al menos en el caso del agente MIRA), lo que podría haber mejorado su rendimiento. Dado que muchos casos reales se repiten, esto quizá no sea un problema en la práctica, aunque no siempre es así. 

En el estado actual de la técnica, esto supone claramente un avance respecto a los sistemas de preguntas y respuestas de nivel experto basados en LLM, y representa un paso necesario antes de poder evaluar estas herramientas en el mundo real. Estos estudios son relevantes para el desarrollo de infraestructuras de ingeniería destinadas a futuras evaluaciones clínicas. Sin embargo, dado el rendimiento actual de los LLM, los resultados no son sorprendentes. Habrá que ver cuáles son los verdaderos desafíos cuando estas tecnologías se apliquen en la práctica y los pacientes interactúen con un agente en situaciones críticas, ya que las simulaciones pueden no reflejar toda la complejidad del comportamiento humano.

ES