Los algoritmos de inteligencia artificial que utiliza ChatGPT –el modelo de lenguaje GPT-3 de la compañía OpenAI– pueden identificar rasgos del habla para predecir las primeras fases de la enfermedad de Alzheimer con una precisión del 80 %. Esta enfermedad neurodegenerativa provoca una pérdida de capacidad para expresarse que los algoritmos podrían reconocer, según publica la revista PLOS Digital Health.
Adobe Stock.
Alfonso Valencia - algoritmos alzhéimer
Alfonso Valencia
Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)
El objetivo del estudio es estudiar la utilidad del sistema de procesamiento de lenguaje natural (GPT-3) en la clasificación de casos de alzhéimer basándose en las características de las conversaciones (pausas, intervalos).
En concreto, el estudio compara los resultados del uso de la información destilada del GPT-3 (los llamados embeddings) con otros sistemas, incluyendo distintos embeddings y procesos de entramiento específicos. En todas estas pruebas el sistema basado en los embeddings es más eficaz distinguiendo los casos de los controles y también en pruebas específicas que cuantifican la severidad de los casos (MMSE score). Es concebible que estos resultados mejorarán aún más con sistemas de PLN (Procesamiento de Lenguaje Natural) más avanzados —estos días se habla de un posible GPT-4 en 2023— entrenados con más datos.
El fundamento de este tipo de aplicaciones es la capacidad para encontrar patrones a partir de las correlaciones entre elementos, en este caso, componentes de las conversaciones. Esta es la especialidad de los desarrollos de los sistemas de aprendizaje máquina y en particular lo que hace potentes los sistemas de PLN como el GTP-3 usado en este estudio.
Consideraciones a tener en cuenta son que los datos utilizados proceden de un conjunto de prueba habitualmente utilizado en este campo (ADReSSo Challenge) que tiene un tamaño muy limitado (237 conversaciones) y es muy homogéneo, sin mezclar pacientes de distintas enfermedades. Los autores reconocen la necesidad de validación en conjuntos externos al usado para el estudio. Este es un paso básico para la validación de cualquier sistema que en esta publicación parece haberse omitido.
La parte final de la nota de prensa y del artículo hablan sobre la posible aplicación práctica del sistema, con la desafortunada mención de un posible servidor público. Este sistema está muy lejos de dicha aplicabilidad y la instalación de un servidor público basado en estos resultados sería una muy mala idea con connotaciones éticas muy problemáticas. La posible aplicación médica de este tipo de sistemas, como de cualquier otro basado en AI/ML (Inteligencia Artificial/Machine Learning), es un tema mucho más complejo que requiere resultados robustos y validados sistemáticamente, además de superar una serie de cuestiones éticas sobre confidencialidad, fiabilidad y utilidad.
Siendo positivo, es interesante que estas tecnologías se apliquen a problemas médicos en los que pueden contribuir a la investigación sobre enfermedades como el alzhéimer, donde la capacidad de la AI/ML para detectar patrones complejos en los datos puede ser de gran utilidad.
Alfonso Valencia es miembro del comité asesor del SMC España.
Pablo Haya - algoritmos alzhéimer
Pablo Haya Coll
Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)
El deterioro del lenguaje es un importante biomarcador de trastornos neurodegenerativos como la enfermedad de Alzheimer. La línea de investigación donde se ubica el artículo propone el uso de técnicas del procesamiento del lenguaje natural (PLN) para la detección precoz de la enfermedad de Alzheimer a través del habla. Los autores emplean un clasificador basado en modelos de lenguaje, en concreto GPT-3, que determina si una persona está desarrollando esta enfermedad y en qué grado, a partir del texto extraído de una locución. El clasificador se ha validado empleando locuciones reales de personas sanas y con alzhéimer. Los resultados reflejan una nueva evidencia de la superioridad que supone incorporar modelos del lenguaje en problemas de cierta complejidad donde tiene cabida el PLN.
Más discutible es el impacto real que pueda tener esta tecnología como prueba diagnóstica. En primer lugar, hubiera sido interesante que el artículo hubiera incluido una comparativa con los métodos que actualmente se emplean en la detección precoz de la enfermedad de Alzheimer. Solo se incluye la comparativa con otros métodos basados en PLN.
En segundo lugar, el análisis coste-beneficio debe tener en cuenta la tasa de falsos positivos, la cual no ha sido reportada. Un uso abierto al público, como proponen los autores a través de una página web o una aplicación móvil, conllevaría que pasaran la prueba muchas más personas sanas que personas desarrollando la enfermedad de Alzheimer. Dependiendo de la tasa de falsos positivos, podría ocurrir que se diagnostiquen que están desarrollando la enfermedad muchas personas sanas. Esto supondría muy probablemente un incremento desmesurado de pruebas alternativas para verificar si los resultados son correctos.
Finalmente, antes de que se pueda usar esta tecnología como prueba diagnóstica, tendrían que cumplir los protocolos de validación establecidos por las distintas agencias sanitarias. El estudio que presenta el artículo se correspondería con una fase muy preliminar dado el tamaño y representatividad de la muestra empleada.
Lucía Ortiz - algoritmos alzhéimer
Lucía Ortiz de Zárate
Investigadora predoctoral en Ética y Gobernanza de la Inteligencia Artificial en el departamento de Ciencia Política y Relaciones Internacionales de la Universidad Autónoma de Madrid
La medicina es una de las áreas de aplicación más prometedoras de la Inteligencia Artificial. El uso de estos sistemas inteligentes podría producir una mejora muy significativa en la realización de diagnósticos, la detección de enfermedades, etc. En esta línea, el artículo Agbavor y Liang de la Universidad Drexel analiza cómo puede utilizarse la última versión del chatbot de la empresa Open AI, GPT- 3, en el diagnóstico temprano del alzhéimer y la demencia.
El deterioro del lenguaje (disminución en el tiempo de respuesta a ciertas preguntas, cambios en la estructura de oraciones, etc.) es un marcador importante a la hora de realizar diagnósticos de enfermedades neurodegenerativas. Utilizando 237 grabaciones de voz procedentes de la base de datos ADReSSo Challenge, los investigadores han entrenado al algoritmo GPT-3 y han mostrado que este puede detectar inicios de alzhéimer con una tasa de acierto del 80 %. Estos resultados igualan y superan, en algunos casos, las tasas de acierto de otros modelos y test convencionales para la detección del alzhéimer.
Aunque se trata de unos resultados prometedores, el estudio tiene algunas limitaciones importantes que evidencian la necesidad de realizar estudios posteriores más amplios y detallados. La muestra con la que se ha trabajado en este caso es baja, por tanto, para ser capaces de verificar la utilidad real de este y otros chatbots será necesario contar con muestras mucho mayores que permitan una generalización mayor de los resultados del estudio. Además, es importante señalar la posible presencia de sesgos y otros problemas éticos en las muestras utilizadas y que es necesario abordar para asegurar que la IA funciona igual de bien en el diagnóstico de personas de cualquier género, etnia, nacionalidad, edad, etc. En este sentido, estudios de este tipo evidencian la necesidad de incorporar la perspectiva ética en cualquier estudio de IA aplicada a la sociedad.
- Artículo de investigación
- Revisado por pares
- Humanos
- Modelización
Felix Agbavor et al.
- Artículo de investigación
- Revisado por pares
- Humanos
- Modelización