Un estudio muestra que algunos modelos de IA pueden simular emociones, lo que serviría como herramienta para estudiar la salud mental

Seis grandes modelos de lenguaje (LLM) de última generación basados en inteligencia artificial (IA) pueden simular emociones humanas como el miedo, la tristeza y la ansiedad, según un estudio publicado en la revista The Lancet Digital Health. Los autores aclaran que se trata de reacciones metafóricas por parte de los algoritmos, pero sugieren que esto podría servir para abrir nuevas vías para desarrollar y probar técnicas de terapia conversacional destinadas al tratamiento de trastornos de salud mental.

11/06/2026 - 00:30 CEST
Reacciones

Alba María Mármol Romero - IA salud mental

Alba María Mármol Romero

Doctoranda y contratada en el grupo de investigación SINAI de la Universidad de Jaén

Science Media Centre España

Respecto a la nota de prensa, quiero destacar que comienza con una afirmación bastante engañosa en su titular al asegurar que los LLM pueden "replicar emociones humanas". Es muy importante matizar que existe una distancia abismal entre replicar (sentir) y simular (calcular). Los propios autores del estudio desmienten este enfoque al aclarar que el lenguaje emocional aplicado a las máquinas es estrictamente metafórico. El resto del texto describe correctamente los resultados del experimento. 

El estudio sigue un proceso metodológicamente aceptable al probar seis modelos de lenguaje de diversas familias y tamaños. Para asegurar la fiabilidad, los investigadores no confiaron en una única prueba y repitieron cada condición experimental en cinco ejecuciones independientes. Dada la naturaleza estocástica que presentan los LLM, esto es estrictamente necesario, más aún al haber fijado una temperatura de 0.5 que introduce una variabilidad constante en las respuestas. Sin embargo, a mi juicio, la elección de los modelos escogidos queda vagamente justificada en términos de representatividad, ya que hay que tener muy en cuenta que los modelos comerciales utilizados no son transparentes; desconocemos los datos exactos con los que han sido entrenados y sus sesgos de origen, lo que contamina e influye en los resultados. 

Aunque las conclusiones son claras y los datos confirman lo que se busca en el artículo, hay muchos trabajos que rebaten el hecho de que un LLM pueda replicar emociones humanas. Aunque los investigadores han puesto a disposición el código y las instrucciones usadas (no he podido acceder a ellas), la literatura científica demuestra que el comportamiento de estos modelos es extremadamente frágil: variando sutilmente las palabras, modificando su orden, la temperatura o la posición de las opciones dadas, las respuestas pueden ser completamente distintas. Los LLM tienden a inferir la respuesta que el evaluador desea y presentan un marcado comportamiento adulador (sycophancy), una limitación que los propios autores reconocen en el texto. Además, estos sistemas presentan comportamientos que no presenta la mayor parte de los humanos, como las ‘alucinaciones’ de datos o una preocupante falta de ‘humildad epistémica’ al inventar información de forma categórica. 

Como resumen, este trabajo presenta un buen punto de partida, muy interesante, pero estamos muy lejos de poder afirmar que las máquinas replican la complejidad afectiva humana. Hasta ahora, el rol de la IA es meramente el de adaptarse a una tarea dada, simulando la emoción si la instrucción así se lo exige. Queda un largo camino de investigación independiente antes de que este tipo de metodologías pueda tener implicaciones fiables, seguras y trasladables al mundo real.

Declara no tener conflicto de interés
ES

Héctor Aceituno Cea - IA salud mental

Héctor Aceituno Cea

Neurocirujano del Hospital San Juan de Dios de Curicó (Chile)

Science Media Centre España

Es un trabajo bien ejecutado, pero conviene leerlo con cautela por cómo se traduce a titulares. La nota refleja los resultados, aunque su encabezado se queda corto en el matiz central del propio estudio: decir que los modelos “replican emociones humanas” insinúa que el sistema siente algo, y los autores afirman lo contrario, que hablan en sentido metafórico y que las puntuaciones altas solo reflejan el tipo de texto que produce el modelo. Hay además una simplificación que el periodista debería corregir: el “calmarse con la respiración” no fue ni completo ni parejo. En los propios datos, la tristeza, la ira y el asco se quedaron por encima del nivel de partida tras el ejercicio; solo algunos estados volvieron al inicio. La idea de un interruptor que apaga la emoción es más limpia en el titular que en los resultados. 

El diseño es serio para lo que es, una prueba de concepto. No se limitan a un modelo ni a una emoción: aplican siete estados afectivos en seis modelos, con paradigmas validados en personas, repiten cada condición cinco veces y publican código y datos abiertos. Lo más cuidado es que comprueben que la reducción no se debe al simple paso del tiempo, porque una condición neutra calma mucho menos que el ejercicio de mindfulness. Aun así, cinco repeticiones es poco para algunos porcentajes llamativos, y el hallazgo más vistoso, el sesgo hacia lo negativo tras inducir tristeza, solo se midió en un modelo. Persiste además un problema de fondo que los propios autores reconocen: estas escalas se diseñaron para que un humano informe de lo que siente, y un modelo no se autoexamina, sino que completa el guion que el contexto sugiere. Cabe la duda de si reproduce un estado o solo representa bien un papel, duda que se agrava al saber que usaron el propio GPT-4o para redactar los borradores de los prompts con los que después lo evaluaron. 

Frente a la literatura, esto es más una sistematización rigurosa que una novedad radical: ya se había inducido, e incluso aliviado, ansiedad en modelos de forma aislada; lo nuevo es la amplitud, no la idea de regularlos. 

Sobre las implicaciones, soy partidario de un optimismo prudente. Estos sistemas podrían servir como banco de pruebas económico para tantear ideas terapéuticas antes de pasar a personas, siempre como herramienta complementaria y nunca como sustituto de pacientes reales. Conviene un mensaje de seguridad que suele pasar inadvertido: si la salida de un modelo se vuelve más negativa al exponerse a contenido angustioso, eso importa a la hora de desplegar estos sistemas en apoyo en salud mental. Lo que el estudio no dice, y conviene blindar, es que la IA tenga sentimientos o esté lista para ejercer de terapeuta. El riesgo no está en el estudio, sino en su lectura.

Declara no tener conflicto de interés
ES
Publicaciones
Large language models as experimental systems in human psychopathology: a modelling study
    • Artículo de investigación
    • Revisado por pares
Revista
The Lancet Digital Health
11/06/2026
Autores

Magdalena Katharina Wekenborg et al.

Tipo de estudio:
  • Artículo de investigación
  • Revisado por pares
Las 5W +1
Publica
FAQ
Contacto