Los grandes modelos de lenguaje –sistemas de Inteligencia Artificial (IA) basados en aprendizaje profundo, como la IA generativa que es ChatGPT– no son tan fiables como los usuarios esperan. Es una de las conclusiones de una investigación internacional publicada en Nature en la que participan investigadores de la Universidad Politécnica de Valencia. Según los autores, en comparación con los primeros modelos y atendiendo a ciertos aspectos, la fiabilidad ha empeorado en los modelos más recientes, como por ejemplo GPT-4 respecto a GPT-3.
Josep Curto - fiabilidad modelos lenguaje
Josep Curto
Profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, director del máster universitario en Inteligencia de Negocio y Big Data Analytics (MIBA) de la UOC y experto en IA
Tras revisar el artículo, podemos comentar que se trata de un artículo riguroso que ofrece una visión diferente y que generará controversia respecto a la evolución de los sistemas LLMs [grandes modelos de lenguaje]. No es el primer artículo que pone en duda los benchmark usados [pruebas para medir el rendimiento] para comparar diferentes modelos (tanto contra versiones anteriores del mismo fabricante o contra los competidores). Un enfoque complementario sería el de LiveBench: A Challenging, Contamination-Free LLM Benchmark (el ranking se puede encontrar aquí) en que se presupone que los conjuntos de datos de entrenamiento contienen las respuestas del benchmark y, por ello, los resultados son mejores que en realidad.
Uno de los grandes retos en el contexto de los LLMs es la interpretabilidad y explicabilidad (para los humanos). Desafortunadamente, a medida que la arquitectura crece en complejidad, la explicación también crece en complejidad y puede llegar rápidamente a superar nuestra capacidad de comprensión.
[La investigación] ofrece un enfoque novedoso para evaluar los LLMs que esperemos pueda extenderse más allá en futuros trabajos.
[En cuanto a limitaciones] Como ya se comenta en el artículo, los humanos que han participado no son expertos en la materia. Otra limitación es no incluir GPT 4o, GPT o1 u otras versiones nuevas, pero teniendo en cuenta que cada semana aparecen nuevos LLMs (que prometen un mejor rendimiento que el resto) es complicado realizar un estudio de este tipo sin fijar los LLMs con los que se trabajarán.
Andreas Kaltenbrunner - fiabilidad modelos lenguaje
Andreas Kaltenbrunner
Investigador líder del grupo AI and Data for Society de la UOC
Es un artículo muy interesante y bien trabajado que explora la relación entre el tamaño de varios tipos de modelos de lenguaje (LLMs) y su fiabilidad para los usuarios humanos. Los autores sostienen que, si bien los LLMs más grandes y más ampliamente entrenados suelen tener un mejor rendimiento en tareas difíciles, también se vuelven menos fiables a la hora de gestionar preguntas más sencillas. En concreto, descubrieron que estos modelos tienden a producir respuestas aparentemente plausibles pero incorrectas en lugar de evitar las preguntas de las que no están seguros. Este comportamiento ‘ultracrepidario’ [pretencioso], en el que los modelos dan respuestas incluso cuando son incorrectas, se puede considerar una tendencia preocupante que socava la confianza de los usuarios. El artículo destaca la importancia de desarrollar LLMs que no solo sean precisos sino también fiables, capaces de reconocer sus limitaciones y de negarse a responder preguntas que no pueden gestionar con precisión. En otras palabras, deberían ser más ‘conscientes’ de sus limitaciones.
Aunque el estudio está muy bien hecho y es muy relevante, hay que destacar algunas limitaciones. La más grande quizá sea que no se ha podido incluir el nuevo modelo OpenAI o1 (solo está disponible desde hace dos semanas). Este modelo ha sido entrenado para generar ‘cadenas de pensamiento’ antes de devolver una respuesta final y, por ende, posiblemente sea capaz de mejorar algunos de los problemas mencionados en el artículo. La omisión del modelo OpenAI o1 es un nuevo ejemplo de que resultados científicos pueden estar desfasados en el momento en el que finalmente salen publicados a raíz del rápido avance de la tecnología estos días (comparado con los ciclos de revisión y publicación de artículos).
Otra limitación que destacar son algunas de las tareas elegidas por los autores (anagramas, adiciones o información geográfica). Son tareas particularmente difíciles para un LLM y no creo que mucha gente use los LLMs para esto. Pero los autores sí tienen razón en que los interfaces de usuarios podrían incluir avisos informando de la calidad de la respuesta del LLM (que incluso se podrían añadir a posteriori sin modificar los LLMs en sí). Son cosas que ya se hacen, por ejemplo, con preguntas a LLMs relacionadas con información electoral para evitar respuestas erróneas.
Pablo Haya - fiabilidad IA
Pablo Haya Coll
Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)
El estudio aporta una comprensión más profunda sobre la fiabilidad de los modelos de lenguaje de gran tamaño (LLM), desafiando la suposición de que escalar y ajustar estos modelos siempre mejora su precisión y alineación. Por un lado, observan que, aunque los modelos más grandes y ajustados tienden a ser más estables y a proporcionar respuestas más correctas, también son más propensos a cometer errores graves que pasan desapercibidos, ya que evitan no responder. Por otro lado, identifican un fenómeno que denominan “discordancia de la dificultad” (difficulty discordance phenomenon). Este fenómeno revela que, incluso en los modelos más avanzados, los errores pueden aparecer en cualquier tipo de tarea, sin importar su dificultad. Esto implica que los errores persisten, incluso en tareas consideradas sencillas.
Desafortunadamente, la revista publica el artículo más de un año después de recibirlo (junio de 2023). De este modo, los LLM analizados en el estudio corresponden a versiones de 2023. Actualmente, ya se disponen de dos nuevas versiones de OpenAI: GPT4o y o1, así como de una nueva versión de Meta: Llama 3. No sería descabellado suponer que las conclusiones del estudio sean extrapolables a GPT4o y Llama 3, dado que ambas versiones mantienen una aproximación técnica similar a la de sus predecesores. Sin embargo, la serie de modelos o1 de OpenAI se basa en un nuevo paradigma de entrenamiento e inferencia, el cual está específicamente diseñado para abordar los tipos de problemas presentes en los conjuntos de prueba utilizados en el estudio. De hecho, al probar manualmente o1-preview con los ejemplos de instrucciones (prompts) descritos en el artículo, ya se observa una mejora significativa en aquellos problemas donde el estudio señala que GPT4 falla. Así, los tiempos de revisión y aceptación en las revistas deberían ajustarse al ritmo de los avances tecnológicos en los LLM, con el fin de evitar que los resultados se publiquen obsoletos.
Teodoro Calonge - IA modelos lenguaje
Teodoro Calonge
Profesor Titular del departamento de Informática en la Universidad de Valladolid
A tenor de mi experiencia, corrobora el gran mito que se levantó con Chat GPT-3 y similares. Como suele ocurrir en estos casos, una gran cantidad de gente se puso, no solo a usarlo como mera herramienta, sino a impartir docencia al respecto, desconociendo los fundamentos de esta herramienta. Y ahí es donde radican los excesos y los errores que se están cometiendo, cuyas consecuencias van más allá de un mero fallo porque, debido a su mecanismo de funcionamiento, hacen que dichos errores se tomen como ciertos y realimenten al sistema, lo que nos hace entrar en un bucle muy peligroso.
En resumen, las conclusiones de los autores de este artículo no me sorprenden en absoluto, sino que corroboran una sospecha que ya tenía.
- Artículo de investigación
- Revisado por pares
Lexin Zhou et al.
- Artículo de investigación
- Revisado por pares