Reacción a "Un estudio muestra que algunos modelos de IA pueden simular emociones, lo que serviría como herramienta para estudiar la salud mental"

Alba María Mármol Romero

Doctoranda y contratada en el grupo de investigación SINAI de la Universidad de Jaén

Respecto a la nota de prensa, quiero destacar que comienza con una afirmación bastante engañosa en su titular al asegurar que los LLM pueden "replicar emociones humanas". Es muy importante matizar que existe una distancia abismal entre replicar (sentir) y simular (calcular). Los propios autores del estudio desmienten este enfoque al aclarar que el lenguaje emocional aplicado a las máquinas es estrictamente metafórico. El resto del texto describe correctamente los resultados del experimento.

El estudio sigue un proceso metodológicamente aceptable al probar seis modelos de lenguaje de diversas familias y tamaños. Para asegurar la fiabilidad, los investigadores no confiaron en una única prueba y repitieron cada condición experimental en cinco ejecuciones independientes. Dada la naturaleza estocástica que presentan los LLM, esto es estrictamente necesario, más aún al haber fijado una temperatura de 0.5 que introduce una variabilidad constante en las respuestas. Sin embargo, a mi juicio, la elección de los modelos escogidos queda vagamente justificada en términos de representatividad, ya que hay que tener muy en cuenta que los modelos comerciales utilizados no son transparentes; desconocemos los datos exactos con los que han sido entrenados y sus sesgos de origen, lo que contamina e influye en los resultados.

Aunque las conclusiones son claras y los datos confirman lo que se busca en el artículo, hay muchos trabajos que rebaten el hecho de que un LLM pueda replicar emociones humanas. Aunque los investigadores han puesto a disposición el código y las instrucciones usadas (no he podido acceder a ellas), la literatura científica demuestra que el comportamiento de estos modelos es extremadamente frágil: variando sutilmente las palabras, modificando su orden, la temperatura o la posición de las opciones dadas, las respuestas pueden ser completamente distintas. Los LLM tienden a inferir la respuesta que el evaluador desea y presentan un marcado comportamiento adulador (sycophancy), una limitación que los propios autores reconocen en el texto. Además, estos sistemas presentan comportamientos que no presenta la mayor parte de los humanos, como las ‘alucinaciones’ de datos o una preocupante falta de ‘humildad epistémica’ al inventar información de forma categórica.

Como resumen, este trabajo presenta un buen punto de partida, muy interesante, pero estamos muy lejos de poder afirmar que las máquinas replican la complejidad afectiva humana. Hasta ahora, el rol de la IA es meramente el de adaptarse a una tarea dada, simulando la emoción si la instrucción así se lo exige. Queda un largo camino de investigación independiente antes de que este tipo de metodologías pueda tener implicaciones fiables, seguras y trasladables al mundo real.

Language ES