Autor/es reacciones

Wei Xing

Profesor adjunto en la Escuela de Ciencias Matemáticas y Físicas de la Universidad de Sheffield (Reino Unido)

Este es uno de los mayores estudios de evaluación de modelos de lenguaje de gran tamaño (LLM) en razonamiento clínico hasta la fecha y la inclusión de datos reales de servicios de urgencias supone un avance genuino. Sin embargo, dos hallazgos del artículo merecen un análisis más profundo del que han recibido. En un experimento de razonamiento sobre la gestión clínica, los médicos que utilizaron GPT-4 obtuvieron un 41 %, sin mejorar el 42 % alcanzado por GPT-4 por sí solo y muy por encima del 34 % de los médicos sin IA, lo que sugiere que los facultativos pueden tender inconscientemente a apoyarse en la respuesta de la IA, en lugar de pensar de forma independiente. Esta tendencia podría volverse más significativa a medida que la IA se utilice de forma más habitual en entornos clínicos.  

Los datos del mundo real de 76 pacientes en un único centro académico de élite ofrecen una imagen más matizada de lo que sugiere el titular: o1 [la herramienta utilizada] identificó el diagnóstico correcto en el 67 % de los casos de triaje, frente al 55 % y el 50 % de los dos médicos responsables, una diferencia real, pero sin un análisis complementario sobre dónde o en qué casos falla el modelo. Sigue siendo completamente desconocido si los errores se concentran en pacientes de edad avanzada, hablantes no nativos de inglés o personas con presentaciones atípicas y, sin ese análisis, una alta precisión media ofrece una tranquilidad limitada. Lo que demuestra este estudio es que un LLM puede superar a los médicos en tareas estructuradas de razonamiento basadas en texto bajo condiciones controladas. No demuestra que la IA sea segura para su uso clínico rutinario, ni que el público deba recurrir a herramientas de IA de libre acceso como sustituto del consejo médico. 

ES