Reacción a "Un estudio muestra el potencial de los grandes modelos de lenguaje para detectar signos de depresión y suicidio en pacientes"

Gerard Anmella

Psiquiatra e investigador de la Unidad de Trastornos Depresivos y Bipolares del Hospital Clínic de Barcelona

Se trata de un estudio realizado en Corea del Sur en el que se analizan las respuestas de 1.064 personas (entre 18 y 39 años) a un test de completar frases (llamado SCT). En este test se pregunta sobre cuatro categorías: autoconcepto (por ejemplo, “Yo soy…” y la persona completa la frase), familia (“Comparada con otras familias, la mía es…”), percepción de género (“Mi esposa (o esposo) es…”) y relaciones interpersonales (“Las personas con las que trabajo son usualmente…”).

Se utilizaron LLMs (grandes modelos de lenguaje) como GPT-3.5 para analizar las respuestas y detectar dos aspectos:

Si había síntomas depresivos (sí o no).

Si existía riesgo de suicidio (sí o no).

Los resultados fueron buenos: los LLMs lograron identificar correctamente (más del 70 % de las veces) a aquellas personas con depresión o riesgo de suicidio.

Estos resultados fueron especialmente sólidos para los textos relacionados con el autoconcepto (por ejemplo, “Yo soy…”, “Algún día seré…”, “Para ser realmente feliz necesito…”), lo que indica que estos fragmentos son especialmente relevantes para detectar aspectos vinculados a la depresión (más que otras preguntas: el contexto es importante).

Además, se analizaron las razones por las que los modelos daban una u otra respuesta, con hallazgos interesantes: se observó que algunas personas enmascaraban o minimizaban la sintomatología en sus respuestas, lo que hacía que el LLM no lograra detectar depresión autorreportada. Esto es similar a lo que puede ocurrir en una consulta: si un paciente no se abre ni es sincero, incluso para un profesional, es difícil identificar lo que ocurre.

En resumen, es un estudio importante porque explora el uso de una tecnología novedosa cuya aplicabilidad en salud mental todavía es desconocida en su totalidad, pero que probablemente jugará un papel clave en los próximos años, ya que:

Las evaluaciones en salud mental se basan fundamentalmente en el lenguaje.

Los LLMs parecen capaces de analizar aspectos sutiles del lenguaje, de forma parecida a lo que ocurre en una entrevista clínica.

Los LLMs están cada vez entrenados con más datos (conocen más), por lo que pueden operar con mayor precisión. Esto quedó demostrado en el estudio, ya que los resultados no variaron cuando al modelo se le daban pistas (ejemplos de depresión) frente a cuando no se le daban.

El rendimiento de los LLMs mejora constantemente, generando respuestas más elaboradas. Además, en los modelos más recientes es posible acceder a la cadena de razonamiento (el proceso detrás de la respuesta) y preguntar por qué el modelo responde de una manera u otra. Aunque no conozcamos de forma totalmente transparente el funcionamiento interno de estos modelos, de este modo podemos inferir por qué dan las respuestas que dan”.

¿Cómo encaja con la evidencia existente y qué novedades aporta?

“Desde hace unos 15 años se aplican técnicas de procesamiento del lenguaje natural en salud mental para intentar encontrar marcadores lingüísticos que permitan detectar problemas psicológicos y ayudar a los profesionales a identificarlos y tratarlos.

Este estudio sigue esa línea, aplicando una tecnología nueva de análisis del lenguaje, lo que nos aporta datos diferentes y complementarios. Es un paso más en el camino hacia una salud mental personalizada, democratizada y basada en marcadores objetivos. Se espera que estas herramientas, en el futuro, puedan complementar el trabajo de los profesionales y ayudar a las personas a comprender mejor sus propios problemas de salud mental”.

¿Hay limitaciones importantes que haya que tener en cuenta?

“Como cualquier estudio, tiene limitaciones que los autores reconocen. Primero, se basa en autorreportes (las personas declaran si tienen síntomas depresivos o no). Esto puede ser complicado de evaluar porque alguien puede confundir un sufrimiento esperable frente a un estresor (como una ruptura amorosa) con un síndrome depresivo. No es lo mismo: el primero es una reacción natural, mientras que el segundo es una patología potencialmente tratable. Por eso, siempre es preferible que esto lo corrobore un profesional de salud mental.

Otro aspecto fundamental es la confidencialidad de los datos: antes de subirlos a la nube del LLM, los autores anonimizan la información para proteger la privacidad de los pacientes. Este paso es clave y abre la puerta a que futuros estudios puedan usar metodologías similares.

Finalmente, y muy importante, está la aplicabilidad clínica: que un profesional pueda basar una decisión en la recomendación de un LLM, o que se active una alerta automática de riesgo suicida gracias a un modelo de este tipo, todavía está lejos de la realidad. Por un lado, se necesitan mejores resultados, validados en distintos países, culturas y tipos de población. Por otro, hay que reflexionar cuidadosamente sobre los riesgos y beneficios: ¿quién será responsable de una decisión clínica basada en un LLM —el modelo, el profesional, ambos?—.

Language ES