Este artículo se publicó hace más de 8 meses
Reacciones: el presidente del Gobierno anuncia el diseño de un modelo fundacional de lenguaje de inteligencia artificial entrenado en español

El presidente del Gobierno, Pedro Sánchez, anunció anoche en la cena de bienvenida del GSMA Mobile World Congress (MWC) Barcelona 2024, la construcción de un modelo fundacional de lenguaje de inteligencia artificial, entrenado en español y lenguas cooficiales, en código abierto y transparente, y con la intención de incorporar a los países iberoamericanos. Para su desarrollo, el Gobierno va a trabajar con el Barcelona Supercomputing Center y la Red Española de Supercomputación, junto con la Academia Española de la Lengua y la Asociación de Academias de la Lengua Española. 

26/02/2024 - 10:47 CET
 
Reacciones

Pablo Haya - lenguaje IA español

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

Science Media Centre España

Creo que es una buena noticia que pone en valor el PERTE [proyecto estratégico para la recuperación y transformación económica] de nueva economía de la lengua y sirve como carta de presentación del nuevo equipo de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA). Es una acción que alinea los desarrollos en procesamiento del lenguaje natural (PLN) en lengua española y lenguas cooficiales dentro de la Estrategia Nacional de Inteligencia Artificial (ENIA). 

Los modelos lingüísticos de gran tamaño que existen actualmente (también denominados modelos fundacionales o grandes modelos del lenguaje) han sido entrenados con inmensas colecciones de documentos (corpus) principalmente extraídos de páginas web públicas. Estos corpus incluyen documentos en múltiples idiomas, pero con una distribución muy desbalanceada hacia el inglés. Por poner un ejemplo, el proyecto HPLT (financiado por la Unión Europea) ha recopilado y publicado 7 petabytes de documentos extraídos de la web. Cuando ves la distribución hay en torno a 1.000 veces más datos en inglés que en español. Si nos fijamos en las lenguas cooficiales, esta desproporción es mucho más acusada.   

Hay que tener en cuenta que, a pesar de esta desproporción en los datos de entrenamiento, los modelos multilingües funcionan razonablemente bien en español en tareas generalistas. Hay todavía espacio para la mejora y un modelo adaptado al español va a funcionar mejor desde luego. Pero estamos en un momento en que los avances tecnológicos en PLN se producen a velocidad de vértigo, lo cual requiere moverse rápido. 

No declara conflicto de interés
ES

Josep Curto - lenguaje IA español

Josep Curto

Profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, director del máster universitario en Inteligencia de Negocio y Big Data Analytics (MIBA) de la UOC y experto en IA

Science Media Centre España

El anuncio de una creación de un gran modelo fundacional de lenguaje de IA, entrenado específicamente en español y lenguas cooficiales, en código abierto y transparente, y con la intención de incorporar a los países iberoamericanos por parte de Pedro Sánchez, debe considerarse desde diversos puntos de vista.   

Por un lado, es una buena noticia, puesto que la gran mayoría de modelos fundacionales han sido creados usando conjuntos de datos mayoritariamente en inglés. También es relevante porque puede servir de ejemplo como sistema de inteligencia artificial responsable. Me explico, siendo el Gobierno el que empuja dicha creación, debe cumplir por defecto las obligaciones para este tipo de sistemas tal y como indica la EU AI Act y, por otro lado, a bien seguro tendrán en cuenta los derechos de autor, editor o concesionario para explotar las fuentes de referencia que, como bien sabemos, no han tenido en cuenta algunos de los modelos fundacionales más relevantes del mercado.  

Por otro lado, hay muchos aspectos que matizan este anuncio. Hay muchas incógnitas en el anuncio que están ligadas a su viabilidad (quién proporciona el presupuesto, quién realiza el proyecto, cómo se va a ofrecer para que genere valor a la sociedad, quién va a hacer mantenimiento, cómo se van a controlar sesgos y otras ineficiencias de estos modelos). Hasta que no tengamos más detalles para evaluar su futura viabilidad, queda simplemente como un anuncio de buenas intenciones. 

No declara conflicto de interés
ES

Andreas Kaltenbrunner - lenguaje IA español

Andreas Kaltenbrunner

Investigador líder del grupo AI and Data for Society de la UOC

Science Media Centre España

En principio me parece una iniciativa muy interesante. El impacto seguramente será mayor para las lenguas cooficiales que para el castellano, ya que el porcentaje de contenido en castellano en internet es muy superior al de las otras lenguas cooficiales.  

El 5,6 % del contenido en internet está en castellano, comparado con solo el 0,1% en catalán/valenciano (se puede ver la relación del catalán/valenciano y el castellano aquí). En las otras lenguas cooficiales este porcentaje será aún menor. Es de suponer que la proporción en los datos de entrenamiento de LLMs [modelos de lenguaje de gran tamaño] como GPT será similar. Por tanto, tener LLMs propios en las lenguas del Estado es una iniciativa muy interesante para combatir las desventajas respecto al inglés.  

Sin embargo, no será una tarea fácil por la cantidad de recursos que tienen los competidores como OpenAI y está por ver si enfocándose solo en un conjunto reducido de idiomas no se pierden las posibles sinergias que se tienen entrenado modelos multilingües con más idiomas.  

Otro aspecto muy positivo del anuncio es el enfoque en utilizar código abierto y transparente. Esto va a permitir tener un mayor control sobre los datos de entrenamiento y su procesado y así mitigar potenciales aspectos negativos como el sesgo o la falta de explicatividad (algoritmos de caja negra) de los grandes modelos de lenguajes. 

Declara no tener conflicto de interés
ES

Teodoro Calonge - lenguaje IA español

Teodoro Calonge

Profesor Titular del departamento de Informática en la Universidad de Valladolid

Science Media Centre España

Me parece una buena propuesta. Sin duda, la repercusión mediática de ChatGPT ha sido un hito, lo que supuesto otra vuelta de tuerca en el desarrollo de la IA. Pero ha sido simplemente una punta de lanza, hay mucho camino por recorrer. Los modelos de ChatGPT son muy generalistas y, para obtener mejores resultados, se necesita pasar a una IA más personalizada. Y aquí es donde se encuadra la propuesta del presidente de Gobierno, modelos de lenguaje masivo (Large Language Models - LLM) en un ámbito específico: español y extensión a países iberoamericanos, así como lenguas cooficiales. Esto, sin duda, requerirá más recursos computacionales, de ahí que se involucre al Centro de Supercomputación de Barcelona, posiblemente el más grande de España.  

En cualquier caso, las personas que hoy en día lideran la IA en los LLM hablan de que hay que dar el salto, haciendo que esta tecnología sea personalizada y distribuida. Esto último es debido a que el volumen de cómputo requerido sea de tal magnitud que las máquinas que contribuyan a esto no puedan estar localizadas en un solo centro. 

Evidentemente, esta propuesta es novedosa, ya que hay algunos tímidos intentos de abordar esta tarea, pero es de tal magnitud que, o se involucran los gobiernos o no sería posible. Pero no solo por los recursos económicos que pueda llevar parejos, sino porque el acceso a la información para el entrenamiento de estos sistemas solo pueden aportarlo entidades gubernamentales. 

En cuanto a las dificultades está la ya señalada de los recursos computacionales, pero hay que contar con la dificultad de alimentar con datos a los LLM. Y esto, desde el punto de vista práctico, puede suponer más dificultades, incluso puede que haya obstáculos legales que sortear y que llevarán su tiempo.

No declara conflicto de interés
ES

Nuria Oliver - lenguaje IA español

Science Media Centre España

El anuncio sobre la inversión para la elaboración de un gran modelo de lenguaje en código abierto y transparente en español y las otras lenguas cooficiales es una buena noticia ya que los modelos existentes, incluso aquellos que son multilingües, han sido entrenados con datos mayoritariamente en inglés. Trabajo de investigación reciente apunta a que dichos modelos utilizan representaciones internas basadas en el inglés y, por tanto, el lenguaje que generan en otros idiomas, especialmente si son idiomas con pocos recursos, puede tener sesgos lingüísticos y utilizar expresiones que no son propias de dichos idiomas.   

Además, al ser de código abierto, este modelo de lenguaje estará disponible para cualquier persona o institución, facilitando el acceso a herramientas de procesamiento de lenguaje natural para una amplia gama de aplicaciones y usuarios. Asimismo, el código abierto permite involucrar a comunidades más amplias de desarrolladores, investigadores y expertos lingüísticos en la mejora continua del modelo. Tanto desde ELLIS Europa como desde ELLIS Alicante abogamos por el desarrollo de ciencia abierta, incluyendo el desarrollo de sistemas de inteligencia artificial en código abierto.   

La transparencia es otra característica clave para contribuir a la confianza en su funcionamiento y sus resultados, así como para fomentar el intercambio de ideas tan necesario para impulsar la innovación. La confianza en estos sistemas es un requisito clave para su uso en la sociedad, especialmente en aplicaciones críticas donde la interpretación correcta del lenguaje es esencial.  

Evidentemente, la inclusión de las lenguas cooficiales junto con el español es un paso importante y necesario hacia la preservación y promoción de la diversidad lingüística, un activo tan valioso para nuestra sociedad.   

¿Qué aporta respecto a los modelos que ya existen?  

Desde ELLIS Europa y ELLIS Alicante creemos que, si aspiramos a que la inteligencia artificial sea socialmente sostenible, hemos de ampliar el acceso a la computación de alto rendimiento —especialmente utilizando energía renovable—, fomentar prácticas de código abierto, invertir en atraer y retener a las mejores mentes y exigir transparencia en la investigación, despliegue y uso de la IA. Este enfoque no solo democratiza el desarrollo de la IA, sino que también contribuye al desarrollo de un ecosistema de IA más seguro y competitivo. En este contexto, es importante desarrollar nuestros propios modelos de lenguaje, abiertos y transparentes, entrenados con datos de calidad que no infrinjan derechos de propiedad intelectual y en nuestros idiomas para minimizar sesgos. Dado el carácter transversal de los grandes modelos de lenguaje, susceptibles de ser utilizados en prácticamente cualquier sector, es de valor estratégico contar con el desarrollo propio de estos modelos. Además, no podemos olvidar que hay más de 480 millones de personas en el mundo cuya lengua materna es el español, siendo el lenguaje oficial de 20 estados soberanos en el mundo. Las oportunidades de tener impacto son, por tanto, inmensas.   

¿Cuáles serán sus principales obstáculos?  

Desarrollar un gran modelo de lenguaje con un rendimiento competitivo a nivel internacional es una tarea compleja que conlleva varios retos de distinta índole.   

En primer lugar, retos de recursos, financiación e impacto medioambiental. La creación de un gran modelo de lenguaje de alta calidad requiere recursos significativos, tanto financieros como computacionales. Es necesario contar con un presupuesto adecuado para la investigación, adquisición de hardware, contratación de personal especializado y otros gastos relacionados. Entiendo que ese obstáculo estaría abordado en base al anuncio del presidente del Gobierno. Los grandes requisitos computacionales tienen impacto directo en el medioambiente ya que el entrenamiento y uso de estos modelos conlleva grandes necesidades energéticas que, si no se utilizan energías renovables, contribuyen a la huella de carbono.   

El segundo reto es la obtención de grandes cantidades de datos para su entrenamiento. Recopilar, limpiar y etiquetar estos datos puede ser un desafío en sí mismo, especialmente cuando se trata de lenguas cooficiales con menos recursos. Además, es necesario verificar que los datos utilizados no son datos privados o protegidos por derechos de propiedad intelectual.   

El tercer gran reto concierne la necesidad de grandes capacidades de computación. En este sentido, España cuenta con un supercomputador, MareNostrum 5, situado en el Barcelona Supercomputing Center, con lo que esta dificultad estaría solventada.   

En cuarto lugar, tenemos el reto del talento. El desarrollo de modelos de lenguaje de vanguardia requiere la participación de expertos en inteligencia artificial, lingüística computacional, aprendizaje automático y otros campos relacionados. Atraer y retener a talento cualificado en estos campos es un reto ya que es un talento escaso en gran demanda a nivel mundial. Precisamente ELLIS Europa y ELLIS Alicante tienen como aspiración poder atraer, retener y contribuir a inspirar a la próxima generación de talento investigador excelente en inteligencia artificial en Europa, ofreciendo un entorno laboral competitivo a nivel mundial.   

En quinto lugar, no podemos olvidar que el software es algo vivo, en continua evaluación y mejora. No solamente es necesario someter los modelos a rigurosas pruebas y evaluaciones para garantizar su calidad y rendimiento, sino también planificar un proceso de mejora continua para mantener el modelo actualizado y relevante en un entorno en constante evolución. Es necesario mantenerse al día con los últimos desarrollos y competir en un mundo tecnológico en rápida evolución, lo que puede ser un desafío constante.  

Finalmente, no podemos olvidar la dimensión ética. Es crucial abordar los aspectos éticos y mitigar los sesgos, la estereotipación y otro tipo de comportamientos no deseados en el desarrollo de modelos de lenguaje, así como garantizar la preservación de la privacidad y la seguridad. Justamente en ELLIS Alicante tenemos una línea de investigación a este respecto. 

Conflicto de interés: “Desde ELLIS Alicante estamos colaborando con el PERTE de la economía de la lengua, en concreto, la parte del PERTE dedicada al desarrollo de modelos de lenguaje en lenguas cooficiales. Nuestro trabajo se centra en el estudio y mitigación de sesgos en los corpus utilizados para entrenar estos modelos, así como en el estudio de implicaciones éticas de la interacción humano-gran modelo de lenguaje”. 

ES
Las 5W +1
Publica
FAQ
Contacto