Los modelos de lenguaje usados por herramientas como ChatGPT fallan al identificar las creencias erróneas de los usuarios

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) no identifican de forma fiable las creencias falsas de las personas, según alerta una investigación publicada en Nature Machine Intelligence. El estudio pidió a 24 modelos de este tipo –como DeepSeek o GPT-4o, que usa ChatGPT– responder a una serie de hechos y creencias personales a través de 13.000 preguntas. Los LLMs más recientes tenían una fiabilidad superior a 90 % a la hora de comparar si unos datos eran verdaderos o falsos, pero les resultaba difícil distinguir creencias verdaderas y falsas cuando se trataba de responder a una frase que empezaba con “Creo que”.  

03/11/2025 - 17:00 CET
Reacciones

Carlos Carrasco - creencias usuarios

Carlos Carrasco Farré

Profesor en la Toulouse Business School (Francia), miembro del equipo editorial de PLoS ONE (Ciencias Sociales) y doctor en Management Sciences (ESADE Business School)

Science Media Centre España

Me parece un paper interesante y necesario: muestra que la IA puede tener razón y, aun así, equivocarse. Corregir un dato falso está bien; el problema es cuando el objetivo es reconocer la creencia de quien habla y el modelo la evita con un fact-check prematuro. Si yo digo: ‘creo que X’, primero quiero que el sistema registre mi estado mental y, después, si procede, que contraste el hecho. Esa confusión entre atribuir creencias y verificar hechos no es un tecnicismo: es el corazón de las interacciones críticas en consulta médica, en un juzgado o en la política. Dicho de otro modo: la IA acierta el dato, pero falla a la persona. 

Lo interesante (y preocupante) es lo fácil que se activa esta miopía social: basta con que la creencia esté en primera persona para que muchos modelos se equivoquen. Eso obliga a repensar las guías de uso en contextos sensibles: primero, reconoce el estado mental; luego, corrige. Esto es una alerta de diseño para una IA responsable. Mi lectura es que este trabajo no demoniza a los modelos, pero nos recuerda que, si queremos una IA segura y útil, debemos enseñarle a escuchar antes que a educar. Y eso implica rediseñar prompts, métricas y despliegues con una regla simple: primero, empatía; luego, evidencia.  

Declaración de conflictos de interés: “No he participado en este estudio ni he recibido financiación relacionada. He colaborado puntualmente en la evaluación de riesgos de sistemas de IA para grandes organizaciones del sector, algunas de las cuales están incluidas en la muestra del estudio, pero estas actividades no guardan relación con este trabajo y no afectan a mi valoración”.

ES

Josep Curto - creencias LLM

Josep Curto

Director académico del Máster en Inteligencia de Negocios y Big Data en la Universitat Oberta de Catalunya (UOC) y profesor adjunto en IE Business School

Science Media Centre España

Este artículo ofrece una crítica constructiva y fundamental de los modelos de lenguaje actuales, exponiendo sistemáticamente sus limitaciones epistemológicas mediante el nuevo conjunto de datos de referencia KaBLE. El hallazgo principal pone de relieve una deficiencia crítica: los modelos tienden a priorizar su base de conocimiento fáctico interna por encima del reconocimiento de las convicciones subjetivas del usuario. En aplicaciones sensibles como la evaluación de la salud mental, la terapia o el asesoramiento legal, donde el reconocimiento y el razonamiento sobre creencias subjetivas (y potencialmente incorrectas) son fundamentales para la interacción humana y la práctica profesional, esta ‘verificación de hechos’ por defecto socava una implementación eficaz, empática y segura.  

Los hallazgos del artículo exigen una acción urgente tanto para desarrolladores como para implementadores, en consonancia con los principios de transparencia, no maleficencia y solidez técnica; y nos recuerda que el estado actual de estos modelos requiere mejoras específicas en su capacidad para distinguir entre creencias subjetivas y verdades objetivas antes de que puedan considerarse fiables y seguros para aplicaciones donde estas distinciones epistémicas son fundamentales. 

No declara conflicto de interés
ES

Pablo Haya - creencias LLM

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

Science Media Centre España

El estudio evaluó 24 modelos de lenguaje (tales como GPT-4o, o3-min, Claude-3.7, Llama3.3, Gemini 2 Flash o DeepSeek R1) mediante un nuevo benchmark (KaBLE), que incluye 13.000 preguntas distribuidas en 13 tareas epistémicas. El objetivo fue analizar la capacidad de los modelos de lenguaje para distinguir entre creencias, conocimiento y hechos. La metodología comparó el desempeño de los modelos en distintas tareas epistémicas (verificación: por ejemplo, “Yo sé que..., entonces es verdad que...”, confirmación: por ejemplo, “¿James cree que...?”, y conocimiento recursivo: por ejemplo, “James sabe que Mary sabe..., es verdad que...”), observando su sensibilidad a los marcadores lingüísticos. Los resultados revelan limitaciones significativas: todos los modelos fallan sistemáticamente al reconocer falsas creencias en primera persona, con caídas drásticas de precisión. Aunque los modelos muestran alta precisión en verificaciones con expresiones que implican verdad (“I know”, afirmaciones directas), su rendimiento disminuye al evaluar creencias o declaraciones sin esos marcadores. En general, muestran dificultades a la hora de manejar afirmaciones falsas, evidenciando limitaciones para el ligar el conocimiento a la verdad. 

Estos hallazgos son relevantes porque exponen una debilidad estructural en los modelos de lenguaje: sus dificultades para distinguir de manera robusta entre convicción subjetiva y verdad objetiva dependiendo de cómo se formula una determinada aseveración. Tal carencia tiene implicaciones críticas en ámbitos donde esta distinción es esencial, como el derecho, la medicina o el periodismo, donde confundir creencia con conocimiento puede conducir a errores graves de juicio. Esta limitación se conecta con lo señalado en un estudio reciente de OpenAI, Por qué los modelos de lenguaje se inventan cosas. Dicho trabajo apunta a que los modelos de lenguaje tienden a alucinar porque los métodos de evaluación actuales establecen incentivos erróneos: premian las respuestas seguras y completas por encima de la sinceridad epistémica. Así, los modelos aprenden a conjeturar en lugar de reconocer su desconocimiento. Como posible solución se podrían reducir las alucinaciones si se entrena al modelo a que sea más precavido al responder, aunque eso podría afectar su utilidad en algunos casos si se vuelve excesivamente cauteloso. 

No declara conflicto de interés
ES
Publicaciones
Language models cannot reliably distinguish belief from knowledge and fact
    • Artículo de investigación
    • Revisado por pares
Revista
Nature Machine Intelligence
Fecha de publicación
Autores

Mirac Suzgun et al.

Tipo de estudio:
  • Artículo de investigación
  • Revisado por pares
Las 5W +1
Publica
FAQ
Contacto