Este artículo se publicó hace más de 6 meses

Un estudio muestra el potencial de los grandes modelos de lenguaje para detectar signos de depresión y suicidio en pacientes

Los grandes modelos de lenguaje —sistemas de inteligencia artificial basados en aprendizaje profundo— podrían ser útiles en la detección de riesgos para la salud mental como depresión y riesgo de suicidio en pruebas narrativas de pacientes que están bajo tratamiento psiquiátrico. Es una de las conclusiones de una investigación publicada en JAMA Network Open, que también muestra el potencial de los embeddings —una técnica de procesamiento de lenguaje natural que convierte el lenguaje humano en vectores matemáticos— para lograr este mismo fin. 

23/05/2025 - 17:00 CEST
Reacciones

Alberto Ortiz Lobo - LLM depresión

Alberto Ortiz Lobo

Doctor en Medicina y psiquiatra del Hospital de Día Carlos III - Hospital Universitario La Paz (Madrid)

Science Media Centre España

El estudio pretende medir la capacidad de los modelos de lenguaje con inteligencia artificial (IA) en la detección de depresión y riesgo de suicidio. Los datos que analizan provienen del test de frases incompletas, una prueba semiproyectiva en el que las personas tienen que finalizar unas oraciones que se les proponen y que proporciona información subjetiva sobre el autoconcepto, familia, percepción de género y relaciones interpersonales, por ejemplo. El estudio se realiza en pacientes que ya están en tratamiento psiquiátrico, por lo que generalizar sus resultados para aplicar esta metodología en la detección de riesgos en población común no es posible, por el momento. 

La evaluación de los problemas de salud mental carece de medidas objetivas, datos de laboratorio o pruebas de imagen. La posible aplicación de la IA en salud mental, en todo caso, tendrá que poner el foco en las narrativas subjetivas de las personas, como hacen en esta investigación. Sin embargo, una cosa es detectar riesgos y hacer un cribado, y otra muy distinta es tratar a las personas con sufrimiento psíquico, una tarea que va más allá de aplicar una solución tecnológica y en la que la subjetividad del profesional resulta imprescindible para desarrollar el vínculo terapéutico.

No declara conflicto de interés
ES

Anmella - LLM

Gerard Anmella

Psiquiatra e investigador de la Unidad de Trastornos Depresivos y Bipolares del Hospital Clínic de Barcelona

Science Media Centre España

Se trata de un estudio realizado en Corea del Sur en el que se analizan las respuestas de 1.064 personas (entre 18 y 39 años) a un test de completar frases (llamado SCT). En este test se pregunta sobre cuatro categorías: autoconcepto (por ejemplo, “Yo soy…” y la persona completa la frase), familia (“Comparada con otras familias, la mía es…”), percepción de género (“Mi esposa (o esposo) es…”) y relaciones interpersonales (“Las personas con las que trabajo son usualmente…”). 

Se utilizaron LLMs (grandes modelos de lenguaje) como GPT-3.5 para analizar las respuestas y detectar dos aspectos: 

  • Si había síntomas depresivos (sí o no). 

  • Si existía riesgo de suicidio (sí o no). 

Los resultados fueron buenos: los LLMs lograron identificar correctamente (más del 70 % de las veces) a aquellas personas con depresión o riesgo de suicidio. 

Estos resultados fueron especialmente sólidos para los textos relacionados con el autoconcepto (por ejemplo, “Yo soy…”, “Algún día seré…”, “Para ser realmente feliz necesito…”), lo que indica que estos fragmentos son especialmente relevantes para detectar aspectos vinculados a la depresión (más que otras preguntas: el contexto es importante). 

Además, se analizaron las razones por las que los modelos daban una u otra respuesta, con hallazgos interesantes: se observó que algunas personas enmascaraban o minimizaban la sintomatología en sus respuestas, lo que hacía que el LLM no lograra detectar depresión autorreportada. Esto es similar a lo que puede ocurrir en una consulta: si un paciente no se abre ni es sincero, incluso para un profesional, es difícil identificar lo que ocurre. 

En resumen, es un estudio importante porque explora el uso de una tecnología novedosa cuya aplicabilidad en salud mental todavía es desconocida en su totalidad, pero que probablemente jugará un papel clave en los próximos años, ya que: 

  • Las evaluaciones en salud mental se basan fundamentalmente en el lenguaje. 

  • Los LLMs parecen capaces de analizar aspectos sutiles del lenguaje, de forma parecida a lo que ocurre en una entrevista clínica. 

  • Los LLMs están cada vez entrenados con más datos (conocen más), por lo que pueden operar con mayor precisión. Esto quedó demostrado en el estudio, ya que los resultados no variaron cuando al modelo se le daban pistas (ejemplos de depresión) frente a cuando no se le daban. 

  • El rendimiento de los LLMs mejora constantemente, generando respuestas más elaboradas. Además, en los modelos más recientes es posible acceder a la cadena de razonamiento (el proceso detrás de la respuesta) y preguntar por qué el modelo responde de una manera u otra. Aunque no conozcamos de forma totalmente transparente el funcionamiento interno de estos modelos, de este modo podemos inferir por qué dan las respuestas que dan”.  

¿Cómo encaja con la evidencia existente y qué novedades aporta?  

“Desde hace unos 15 años se aplican técnicas de procesamiento del lenguaje natural en salud mental para intentar encontrar marcadores lingüísticos que permitan detectar problemas psicológicos y ayudar a los profesionales a identificarlos y tratarlos. 

Este estudio sigue esa línea, aplicando una tecnología nueva de análisis del lenguaje, lo que nos aporta datos diferentes y complementarios. Es un paso más en el camino hacia una salud mental personalizada, democratizada y basada en marcadores objetivos. Se espera que estas herramientas, en el futuro, puedan complementar el trabajo de los profesionales y ayudar a las personas a comprender mejor sus propios problemas de salud mental”. 

¿Hay limitaciones importantes que haya que tener en cuenta? 

“Como cualquier estudio, tiene limitaciones que los autores reconocen. Primero, se basa en autorreportes (las personas declaran si tienen síntomas depresivos o no). Esto puede ser complicado de evaluar porque alguien puede confundir un sufrimiento esperable frente a un estresor (como una ruptura amorosa) con un síndrome depresivo. No es lo mismo: el primero es una reacción natural, mientras que el segundo es una patología potencialmente tratable. Por eso, siempre es preferible que esto lo corrobore un profesional de salud mental. 

Otro aspecto fundamental es la confidencialidad de los datos: antes de subirlos a la nube del LLM, los autores anonimizan la información para proteger la privacidad de los pacientes. Este paso es clave y abre la puerta a que futuros estudios puedan usar metodologías similares. 

Finalmente, y muy importante, está la aplicabilidad clínica: que un profesional pueda basar una decisión en la recomendación de un LLM, o que se active una alerta automática de riesgo suicida gracias a un modelo de este tipo, todavía está lejos de la realidad. Por un lado, se necesitan mejores resultados, validados en distintos países, culturas y tipos de población. Por otro, hay que reflexionar cuidadosamente sobre los riesgos y beneficios: ¿quién será responsable de una decisión clínica basada en un LLM —el modelo, el profesional, ambos?—.

Gerard Anmella ha recibido honorarios relacionados con formación médica continuada u honorarios de consultoría de Abartis Pharma, Adamed, Angelini, Casen Recordati, Johnson & Johnson, Lundbeck, Lundbeck/Otsuka, Rovi, y Viatris, sin ninguna relación financiera o de otro tipo relevante para el tema de este artículo. 

ES
Publicaciones
Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives
    • Artículo de investigación
    • Revisado por pares
    • Humanos
Revista
JAMA Network Open
Fecha de publicación
Autores

Silvia Kyungjin Lho et al.

Tipo de estudio:
  • Artículo de investigación
  • Revisado por pares
  • Humanos
Las 5W +1
Publica
FAQ
Contacto