Los modelos de lenguaje usados por herramientas como ChatGPT fallan al identificar las creencias erróneas de los usuarios
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) no identifican de forma fiable las creencias falsas de las personas, según alerta una investigación publicada en Nature Machine Intelligence. El estudio pidió a 24 modelos de este tipo –como DeepSeek o GPT-4o, que usa ChatGPT– responder a una serie de hechos y creencias personales a través de 13.000 preguntas. Los LLMs más recientes tenían una fiabilidad superior a 90 % a la hora de comparar si unos datos eran verdaderos o falsos, pero les resultaba difícil distinguir creencias verdaderas y falsas cuando se trataba de responder a una frase que empezaba con “Creo que”.