El uso de conjuntos de datos generados por inteligencia artificial (IA) para entrenar futuras generaciones de modelos de aprendizaje automático puede contaminar sus resultados, un concepto conocido como ‘colapso del modelo’, según un artículo publicado en Nature. La investigación muestra que, en unas pocas generaciones, el contenido original se sustituye por tonterías sin relación, lo que demuestra la importancia de utilizar datos fiables para entrenar los modelos de IA.
Andreas Kaltenbrunner - IA colapso
Andreas Kaltenbrunner
Investigador líder del grupo AI and Data for Society de la UOC
El estudio es muy interesante, de buena calidad, pero su valor es sobre todo a nivel teórico porque sus conclusiones parten de la asunción de que en futuros entrenamientos únicamente se usan datos generados por modelos de IA. En un escenario real, siempre habrá también una parte de datos de entrenamiento generados por humanos, como mínimo, los que hay disponibles ahora.
No está claro cuál sería el resultado si se mezclan datos generados por humanos con datos generados por IA y todavía menos qué pasaría si además se añaden datos (cada vez más frecuentes) generados de forma híbrida entre IA y humanos.
El estudio sería más completo si incluyese también experimentos al respecto.
Víctor Etxebarria - IA colapso
Víctor Etxebarria
Catedrático de Ingeniería de Sistemas y Automática en la Universidad del País Vasco (UPV/EHU)
Este artículo demuestra, desde el punto de vista matemático y con todo rigor, que las IA generativas pueden funcionar incorrectamente si se entrenan con datos generados por IA. El efecto que los autores proponen llamar ‘colapso del modelo’ es cierto: los modelos de lenguaje de gran tamaño (LLM) —en los que basan su funcionamiento las IA generativas actuales— realmente colapsan (dejan de funcionar, responden mal, dan información incorrecta). Se trata de un efecto estadístico perfectamente demostrado en el artículo e ilustrado con ejemplos y experimentos, siempre que los modelos LLM se entrenen recursivamente (es decir: dando a la IA generativa datos de entrenamiento generados previamente por una IA generativa). En este sentido, el artículo demuestra que las IA generativas entrenadas de esta manera son realmente degenerativas.
Las IA son entrenadas con enormes cantidades de datos presentes en internet, producidos por personas que tienen derechos legales de autoría de su material. Para evitar demandas judiciales o para ahorrar costes las empresas tecnológicas utilizan datos generados por sus propias IA para seguir entrenando sus máquinas. Este procedimiento cada vez más generalizado hace que las IA no sirvan para ninguna función realmente fiable. Ello transforma las IA en herramientas no solo inútiles para ayudarnos a solucionar nuestros problemas, sino que pueden ser nocivas, si basamos nuestras decisiones en información incorrecta.
Los autores de este excelente articulo recomiendan a la industria IA usar entrenamiento con datos realmente inteligentes (es decir: humanos). También reconocen que el prefiltrado de datos generados automáticamente para evitar la degeneración no es necesariamente imposible, pero requiere mucha investigación seria al respecto.
Pablo Haya Coll - IA colapso
Pablo Haya Coll
Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)
El artículo pone de manifiesto una limitación importante en el uso de datos sintéticos para entrenar LLM [modelos de lenguaje de gran tamaño]. La idea de utilizar datos generados por un LLM para reentrenar el mismo u otro LLM es muy atractiva, ya que supondría una fuente ilimitada de datos de entrenamiento. Sin embargo, este artículo aporta evidencia de que esta técnica puede llevar a corromper el LLM (‘colapso del modelo’, en palabras de los autores). Este resultado es un aviso sobre la calidad de los datos utilizados en la construcción de estos LLM. A medida que se adoptan más estos LLM, más datos sintéticos terminan en internet, lo que podría afectar hipotéticamente los entrenamientos de versiones futuras.
Recopilar datos de fuentes fiables que se actualicen con frecuencia se convierte en una prioridad para los proveedores de LLM. No es de extrañar los numerosos acuerdos que empresas como OpenAI están suscribiendo con medios de comunicación y editores. En esta línea, la familia de modelos fundacionales ALIA, financiada por el gobierno español, deberá contar con fuentes de primera calidad para la construcción de estos modelos.
Con la publicación del Reglamento de Inteligencia Artificial, se añaden aspectos en la calidad de los datos, como la propiedad intelectual, la privacidad y los datos personales, y los sesgos, que deben ser tenidos en cuenta. Tal como nos muestra el artículo, la generación de datos sintéticos no será la solución para obtener datos de calidad.
- Artículo de investigación
- Revisado por pares
Shumailov et al.
- Artículo de investigación
- Revisado por pares