Mikel Galar
Profesor del Área de Ciencias de la Computación e Inteligencia Artificial de la Universidad Pública de Navarra
El artículo aborda la tendencia de los modelos de lenguaje, como ChatGPT, Claude o Gemini, a dar la razón al usuario durante la interacción. A diferencia de otros sesgos más estudiados, como los relacionados con el género, la edad o la raza, este fenómeno consiste en que los modelos muestran una inclinación a validar o respaldar la postura del usuario, incluso en contextos problemáticos.
El trabajo resulta especialmente relevante porque analiza este comportamiento en 11 modelos de IA distintos y lo estudia mediante tres investigaciones complementarias. En primer lugar, los autores emplean un conjunto de datos extraído de la conocida red social Reddit, a partir del cual observan que los sistemas tienden a reafirmar las acciones del usuario un 49 % más que otras personas, incluso en situaciones que implican engaño, ilegalidad o posibles daños. Además, el artículo analiza los efectos de este fenómeno mediante varios experimentos con usuarios: por un lado, pruebas controladas basadas en situaciones hipotéticas y, por otro, un estudio de conversación en tiempo real en el que los participantes interactúan con un sistema de IA para discutir dilemas interpersonales vividos por ellos mismos.
Aunque la muestra presenta ciertas limitaciones y sería deseable comprobar hasta qué punto los resultados se generalizan a otros perfiles poblacionales, el estudio aporta evidencia sólida de que esta tendencia de los modelos a dar la razón al usuario no es anecdótica, sino un rasgo sistemático con posibles consecuencias relevantes. En particular, los resultados sugieren que este comportamiento puede influir en la conducta social posterior de los usuarios y aumentar su predisposición a seguir utilizando estos sistemas, lo que podría reforzar sus posiciones incluso cuando sean erróneas. No obstante, sería interesante profundizar en la solidez de estos resultados en muestras más diversas y en contextos de uso más amplios, para valorar hasta qué punto este comportamiento se mantiene en otros perfiles de usuarios y situaciones.
En conjunto, el artículo pone de relieve un problema importante que debería ser tenido en cuenta en el desarrollo y evaluación de los sistemas de IA conversacional, dado que puede tener efectos perjudiciales a nivel individual y social. La adopción de estas herramientas en la vida cotidiana ha sido muy rápida, mientras que la sociedad aún no es plenamente consciente de los riesgos asociados a depositar en ellas una confianza excesiva.