Un estudio ha analizado el rendimiento de ChatGPT al enfrentarse a los exámenes necesarios para obtener la licencia de médico en Estados Unidos. Los resultados indican que podría aprobarlos o estaría cerca de hacerlo. Se publica en la revista PLOS Digital Health.
ChatGPT podría pasar los exámenes para obtener la licencia de médico en USA / Adobe Stock
Valencia - Chatgpt
Alfonso Valencia
Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)
ChatGPT es un sistema computacional de procesamiento del lenguaje natural construido por OpenAI sobre un GPT3.5 (Generative Pretrained Transformer). El GPT ha sido entrenado con gran cantidad de texto para correlacionar las palabras en su contexto, para lo que maneja unos 175 billones de parámetros. ChatGPT ha sido refinado adicionalmente para contestar preguntas encadenando palabras, siguiendo el modelo de correlaciones interno.
ChatGPT ni «razona», ni «piensa», solo devuelve un texto basado en un modelo de probabilidad enorme y muy sofisticado.
El examen tiene tres niveles: a) estudiantes de medicina de segundo año con unas 300 horas de estudio, b) estudiantes de Medicina de cuarto año con unos 2 años de experiencia en servicios rotatorios, y c) estudiantes que han completado más de medio año de educación de posgrado.
El test incluyó tres tipos de preguntas adaptadas para poder presentarlas al sistema:
-
Tipo sugerencia abierta, por ejemplo: «En su opinión, ¿cuál es el motivo de la asimetría pupilar del paciente?»
-
Elección entre varias opciones sin justificación adicional. Un caso típico sería una pregunta como: «¿En este paciente está condición x es causada principalmente por cuál de los siguientes patógenos?»
-
Elección entre varias opciones justificando la respuesta, serían casos como: «¿Cuál de las siguientes es la razón más probable de los síntomas nocturnos del paciente? Justifique la elección hecha».
Los resultados fueron evaluados por dos médicos con experiencia y las discrepancias, evaluadas por un tercer experto.
Resumiendo mucho los resultados podemos decir que las respuestas fueron precisas en una medida que es equivalente al nivel mínimo de los humanos aprobados ese año.
Una serie de observaciones son interesantes:
-
Es sorprendente que en unos pocos meses el sistema ha mejorado de modo significativo sobre los resultados anteriores, en parte porque es mejor y en parte porque en unos meses la cantidad de datos biomédicos ha aumentado considerablemente.
-
El sistema es mejor que otros entrenados solo con textos científicos. La razón tiene que estar en que el modelo estadístico es más completo.
-
Hay una correlación interesante entre la calidad de los resultados (precisión), la calidad de las explicaciones (concordancia) y la capacidad para producir explicaciones no triviales (perspicacia). La explicación puede ser que, cuando el sistema trabaja sobre un caso en el que tiene muchos datos, el modelo de correlación es mejor, lo que produce explicaciones mejores y más coherentes. Esta situación parece que nos deja intuir algo sobre el funcionamiento interno y su dependencia de estructura de los datos.
El estudio es cuidadoso en aspectos claves, como comprobar que las preguntas y respuestas no estaban en la web y no se podían haber usado para entrenar el sistema o que no retenía memoria de respuestas anteriores. También tiene limitaciones como un tamaño de casos limitado (con 350 preguntas: 119, 102 y 122 para cada uno de los niveles del 1 al 3). También representa un escenario limitado puesto que solo trabaja con textos. De hecho, se eliminaron 26 preguntas que contenían imágenes u otra información no textual.
¿Que nos dice todo esto?
-
Los exámenes no deben ser escritos, puesto que es posible contestarlos sin «entender» ni las preguntas ni las repuestas. Es decir, estos exámenes escritos no sirven para valorar los conocimientos de un alumno (máquina o humano), ni su capacidad de respuesta ante un caso real (nula en el caso de la máquina).
-
Los sistemas de procesamiento del lenguaje natural basados en «Transformers» están alcanzando unos niveles de escritura muy impresionantes y básicamente equiparables a los humanos.
-
Los humanos todavía estamos explorando cómo usar estas nuevas herramientas.
Alfonso Valencia es miembro del comité asesor del SMC España.
Lucía Ortiz - Chatgpt
Lucía Ortiz de Zárate
Investigadora predoctoral en Ética y Gobernanza de la Inteligencia Artificial en el departamento de Ciencia Política y Relaciones Internacionales de la Universidad Autónoma de Madrid
El estudio aborda, de manera experimental, el potencial de ChatGPT (OpenAI) para realizar el United States Medical Licensing Exam (USMLE). Aprobar este examen es un requisito necesario para adquirir la licencia para ejercer la medicina en Estados Unidos y a través de este se examinan las capacidades de los especialistas médicos para aplicar conocimientos, conceptos y principios que resultan fundamentales para poder ofrecer la atención necesaria a los pacientes.
Lo novedoso del artículo reside, no solo en el hecho de que se trata del primer experimento que se usa para estos fines, sino en los resultados del mismo. Según los responsables de la investigación, ChatGPT se encuentra muy cerca de aprobar este examen, que necesitaría alcanzar, al menos, el 60% de aciertos. El examen usado en el estudio contiene tres tipos de preguntas (respuesta abierta, tipo test sin justificación de respuesta y tipo test con justificación de respuesta). Actualmente, ChatGPT ha alcanzado una media de entre el 52.4 % y el 75 % de aciertos, superando el 36.7% de aciertos conseguidos solo hace pocos meses con modelos anteriores. Estas rápidas mejoras de ChatGPT en pocos meses hacen que los investigadores se muestren optimistas respecto a las posibilidades de esta IA.
Aunque los resultados pueden generar gran interés, el estudio tiene limitaciones importantes que obligan a tomarlos con precaución. Para realizar el examen USMLE, ChatGPT fue testado con 375 preguntas de exámenes de la edición de junio 2022, publicados por la página oficial responsable del examen. En este sentido, habrá que esperar a ver qué resultados se obtienen cuando ChatGPT se aplique a un número mayor de preguntas y, a su vez, sea entrenado con un volumen mayor de datos y con contenido más especializado. Además, los resultados del examen realizado por ChatGPT fueron evaluados por dos médicos. De este modo, es necesario esperar a estudios posteriores que puedan contar con un número mayor de evaluadores cualificados para poder avalar los resultados de esta IA.
Este tipo de estudios evidencian, por un lado, el potencial de la IA para las aplicaciones médicas y, por otro lado, la necesidad de repensar los métodos de evaluación del conocimiento. De cara a la práctica médica, las tecnologías de IA pueden suponer una ayuda muy significativa para los/as médicos/as a la hora de realización de diagnósticos, prescripción de tratamientos y medicamentos, etc. Cambios que también obligan a repensar la relación entre la IA, los/as médicos/as y los pacientes. Del lado de los sistemas de evaluación, no solo en medicina, la aparición y progresiva mejora de sistemas de IA como ChatGPT evidencian la necesidad de repensar los métodos de evaluación del conocimiento y las habilidades (además de contenidos) que necesitan los profesionales del futuro.
- Artículo de investigación
- Revisado por pares
- Artículo de investigación
- Revisado por pares