Héctor Aceituno Cea
Neurocirujano del Hospital San Juan de Dios de Curicó (Chile)
Es un trabajo bien ejecutado, pero conviene leerlo con cautela por cómo se traduce a titulares. La nota refleja los resultados, aunque su encabezado se queda corto en el matiz central del propio estudio: decir que los modelos “replican emociones humanas” insinúa que el sistema siente algo, y los autores afirman lo contrario, que hablan en sentido metafórico y que las puntuaciones altas solo reflejan el tipo de texto que produce el modelo. Hay además una simplificación que el periodista debería corregir: el “calmarse con la respiración” no fue ni completo ni parejo. En los propios datos, la tristeza, la ira y el asco se quedaron por encima del nivel de partida tras el ejercicio; solo algunos estados volvieron al inicio. La idea de un interruptor que apaga la emoción es más limpia en el titular que en los resultados.
El diseño es serio para lo que es, una prueba de concepto. No se limitan a un modelo ni a una emoción: aplican siete estados afectivos en seis modelos, con paradigmas validados en personas, repiten cada condición cinco veces y publican código y datos abiertos. Lo más cuidado es que comprueben que la reducción no se debe al simple paso del tiempo, porque una condición neutra calma mucho menos que el ejercicio de mindfulness. Aun así, cinco repeticiones es poco para algunos porcentajes llamativos, y el hallazgo más vistoso, el sesgo hacia lo negativo tras inducir tristeza, solo se midió en un modelo. Persiste además un problema de fondo que los propios autores reconocen: estas escalas se diseñaron para que un humano informe de lo que siente, y un modelo no se autoexamina, sino que completa el guion que el contexto sugiere. Cabe la duda de si reproduce un estado o solo representa bien un papel, duda que se agrava al saber que usaron el propio GPT-4o para redactar los borradores de los prompts con los que después lo evaluaron.
Frente a la literatura, esto es más una sistematización rigurosa que una novedad radical: ya se había inducido, e incluso aliviado, ansiedad en modelos de forma aislada; lo nuevo es la amplitud, no la idea de regularlos.
Sobre las implicaciones, soy partidario de un optimismo prudente. Estos sistemas podrían servir como banco de pruebas económico para tantear ideas terapéuticas antes de pasar a personas, siempre como herramienta complementaria y nunca como sustituto de pacientes reales. Conviene un mensaje de seguridad que suele pasar inadvertido: si la salida de un modelo se vuelve más negativa al exponerse a contenido angustioso, eso importa a la hora de desplegar estos sistemas en apoyo en salud mental. Lo que el estudio no dice, y conviene blindar, es que la IA tenga sentimientos o esté lista para ejercer de terapeuta. El riesgo no está en el estudio, sino en su lectura.