Reacciones

Este artículo se publicó hace más de 1 year

Meta diseña un modelo de inteligencia artificial capaz de traducir de forma instantánea de voz a voz

Un modelo de inteligencia artificial (IA) liderado por la compañía Meta es capaz de traducir voz y texto, incluidas traducciones directas de voz a voz, de hasta 101 idiomas en algunos casos. Según el equipo investigador, este modelo —denominado SEAMLESSM4T— puede allanar el camino hacia traducciones universales rápidas “con recursos que se pondrán a disposición del público para uso no comercial”. El trabajo se publica en la revista Nature.

SMC España

15/01/2025 - 17:00 CET

English version

Reacciones

Víctor Etxebarria - IA Meta voz

Víctor Etxebarria

Catedrático de Ingeniería de Sistemas y Automática en la Universidad del País Vasco (UPV/EHU)

Universidad del País Vasco (UPV-EHU)

Science Media Centre España

El traductor SEAMLESSM4T presentado por la empresa Meta es un producto tecnológico avanzado que agrupa tecnologías anteriormente desarrolladas por múltiples personas dedicadas a la I+D en IA. El artículo publicado en Nature —Joint speech and text machine translation for up to 100 languages— no contribuye al avance científico, ya que, partiendo de lo publicado, especialistas independientes no tienen permiso de reproducibilidad, comprobación o incluso mejora de sus bases tecnológicas, y tan solo tienen acceso a conectarse al traductor para efectuar ejemplos superficiales de traducciones. Este software no cumple los principios de la IA en código abierto tal y como lo define la Open Source Initiative: usar, estudiar, modificar y compartir para cualquier propósito. Esto no lo permite este traductor y, por tanto, no es coherente con los principios de la ciencia abierta.

El traductor, sobre todo en su versión de traducción directa de voz a voz, es un producto que puede resultar muy útil, intentando imitar el servicio efectuado por las personas dedicadas a la traducción simultánea en el contexto internacional. El producto no evita los retardos de traducción, ni tampoco evita los errores de traducción, ni su enmienda en tiempo real que sí realizan las personas traductoras. Otra limitación es que solo puede utilizarse a través de la API (Application Programming Interface) remoto por internet que impone la empresa. En conjunto, el traductor es un producto tecnológico avanzado y probablemente muy útil, pero cerrado a los principios de la ciencia abierta y con múltiples limitaciones tecnológicas y legales.

Declara no tener conflicto de interés

Language ES

Maite Martín - IA Meta voz

Maite Martín

Catedrática del departamento de Informática de la Universidad de Jaén e investigadora del grupo de investigación SINAI (Sistemas INteligentes de Acceso a la Información)

Universidad de Jaén

Science Media Centre España

El artículo presenta un modelo de traducción automática multimodal y multilingüe llamado SEAMLESSM4T, desarrollado para superar las limitaciones actuales en la traducción de texto y habla, incluyendo traducciones entre lenguajes de pocos recursos. Este modelo unificado permite realizar tareas como traducción de habla a habla, habla a texto, texto a texto y texto a habla, con soporte para hasta 101 idiomas de origen y hasta 36 idiomas de destino en modalidades de habla.

Desde mi punto de vista, uno de los aspectos más destacados del modelo es su enfoque en estudiar e incorporar idiomas con pocos recursos, como el maltés y el suajili, que han sido históricamente excluidos de los avances tecnológicos en traducción automática. Estos idiomas, al carecer de grandes volúmenes de datos etiquetados y recursos específicos, suelen quedar rezagados en el desarrollo de herramientas lingüísticas avanzadas. Sin embargo, el trabajo realizado aborda esta brecha mediante la creación de un corpus masivo de datos de habla y texto alineados. Este corpus combina datos etiquetados manualmente con recursos generados automáticamente, lo que permite ampliar significativamente el alcance y la precisión del modelo en lenguas menos representadas. Este esfuerzo no solo mejora la accesibilidad de las tecnologías de traducción para estas comunidades, sino que también marca un avance en la inclusión lingüística al democratizar el acceso a herramientas avanzadas de comunicación.

Otro aspecto igualmente relevante del trabajo es la decisión de poner estos datos y herramientas a disposición de la comunidad científica para uso no comercial. Este enfoque fomenta la investigación colaborativa, al permitir que otros desarrolladores e investigadores utilicen estos recursos para seguir avanzando en la traducción automática, especialmente en contextos multilingües y multimodales. La publicación de estos recursos no solo consolida el modelo como un referente en innovación tecnológica, sino que también impulsa el desarrollo de soluciones más inclusivas y equitativas, sentando las bases para un ecosistema de investigación más abierto y dinámico.

El modelo, sin embargo, también enfrenta limitaciones importantes. Aunque mejora la precisión en la traducción de lenguajes con pocos recursos, los resultados aún son inferiores a los obtenidos con idiomas de alta disponibilidad. Además, aspectos como la interacción en tiempo real, la expresividad de la voz traducida y la mitigación de sesgos de género y toxicidad siguen siendo desafíos abiertos. Estas limitaciones sugieren que, aunque SEAMLESSM4T supone un avance significativo, todavía queda trabajo por hacer para optimizar su implementación en escenarios prácticos.

Declara no tener conflicto de interés

Language ES

Andreas Kaltenbrunner - IA Meta voz

Andreas Kaltenbrunner

Investigador líder del grupo AI and Data for Society de la UOC

Universitat Oberta de Catalunya (UOC)

Science Media Centre España

Se trata de un estudio muy interesante, aunque ya no tan reciente. Meta ya publicó una primera versión del estudio en agosto de 2023. A pesar de ello, este estudio incorpora varias innovaciones destacables.

En primer lugar, es un sistema unificado que gestiona todos los aspectos de la traducción (voz y texto) en un solo entorno, en lugar de depender de varios sistemas independientes.

Otro aspecto relevante es la amplia cantidad de idiomas que soporta: más de 100 idiomas de entrada y docenas de idiomas de salida. Además, destaca por su robustez frente a desafíos del mundo real, como el manejo de ruido y la comprensión de diferentes acentos, aspectos que suelen causar dificultades a otros sistemas.

En términos de rendimiento, supera a los mejores sistemas anteriores en diversas métricas, con una mejora de más del 20 %.

Finalmente, es digno de elogio que el estudio incluya un análisis sobre si las traducciones incrementan la toxicidad de los textos o cómo abordan posibles sesgos de género. Sin embargo, resulta desafortunado que Meta, la empleadora de los investigadores de este estudio, parece haber decidido recientemente abandonar los esfuerzos en este sentido con su nueva política de moderación de contenidos.

Declara no tener conflicto de interés

Language ES

Pablo Haya - IA Meta voz

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

Universidad Autónoma de Madrid

Instituto de Ingeniería del Conocimiento

Science Media Centre España

SEAMLESSM4T es un sistema de traducción automática multilingüe y multimodal que combina capacidades de traducción de habla a habla (S2ST), habla a texto (S2TT), texto a habla (T2ST) y texto a texto (T2TT) para un rango muy amplio de idiomas, incluyendo lenguas de pocos recursos. SEAMLESSM4T logra una mayor precisión y robustez que los sistemas de traducción tradicionales. Las métricas reportadas indican que el modelo es resistente al ruido y a variaciones en los hablantes.

Es interesante destacar que el modelo incorpora estrategias para mitigar sesgos de género y toxicidad, garantizando traducciones más inclusivas y seguras. SEAMLESSM4T representa un paso adelante en la construcción de sistemas inclusivos y accesibles, ofreciendo un puente efectivo entre culturas y lenguajes para su aplicación en contextos tanto digitales como presenciales.

Aunque SEAMLESSM4T es un avance significativo, tiene algunas limitaciones reseñables. Su acierto varía según el idioma, especialmente en lenguas de bajos recursos, y según el género, acento y demografía. Puede enfrentar dificultades al traducir nombres propios, jerga y expresiones coloquiales.

Hay que tener en cuenta que el habla no se limita a ser texto hablado; incorpora una variedad de componentes prosódicos, como el ritmo, el énfasis, la entonación y el tono, así como elementos emocionales que requieren una investigación más exhaustiva. Para desarrollar sistemas S2ST que resulten orgánicos y naturales, es fundamental centrar los esfuerzos en que el audio generado preserve la expresividad del lenguaje.

Además, para aumentar la adopción de estos sistemas es preciso mayor investigación en sistemas que permitan traducción en streaming, es decir, traducir de forma incremental una oración a medida que se pronuncia.

Finalmente, los propios autores destacan que las aplicaciones impulsadas por SEAMLESSM4T deben entenderse como herramientas de apoyo diseñadas para asistir en la traducción, en lugar de reemplazar la necesidad de aprender idiomas o contar con intérpretes humanos confiables. Este recordatorio resulta especialmente crucial en contextos como la toma de decisiones legales o médicas.

Nota del autor: “SEAMLESSM4T fue publicado en abierto por Meta en agosto del 2023. El artículo que se publica en Nature no parece que difiera de lo que ya explicó Meta en su día y puso en abierto en su repositorio de github. Es posible probar esta tecnología aquí”.

No declara conflicto de interés

Language ES

Raquel Fernández - IA Meta voz

Raquel Fernández

Catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam y vicedirectora de Investigación del Instituto de Lógica, Lenguaje y Computación (ILLC) de la Universidad de Ámsterdam

Science Media Centre España

El artículo presenta un único modelo capaz de traducir de texto escrito a texto escrito, de voz a voz y de texto a voz o de voz a texto entre alrededor de 100 idiomas diferentes. Los sistemas de traducción automática tienden a funcionar razonablemente bien para idiomas que están bien representados en internet (inglés, chino o español, por ejemplo), pero no tanto para idiomas con menos hablantes o menos datos digitales disponibles (como maltés, suajili o urdu). Además, la traducción automática se ha limitado principalmente al texto escrito. El modelo presentado en este artículo (SEAMLESSM4T) supone un avance substancial al incluir la capacidad de traducir hacia y desde el habla (además del texto) y al hacerlo para una gran cantidad de idiomas diferentes.

Como todos los sistemas de IA actuales, los modelos de traducción automática requieren de enormes cantidades de datos para su entrenamiento. En el caso de la traducción, los datos generalmente consisten en pares de oraciones: una oración en un idioma determinado y su traducción a otro idioma, que el modelo usa para aprender. Sin embargo, este tipo de datos emparejados es muy costoso de crear y no está disponible para muchos idiomas. Los autores abordan este problema utilizando un modelo de IA (SONAR) capaz de encontrar oraciones en línea (escritas o habladas) con significados muy similares y usan estas oraciones extraídas automáticamente como si fueran traducciones la una de la otra. Esto les permite crear un conjunto de datos de entrenamiento enorme que es clave para desarrollar un modelo de traducción robusto. Además de ofrecer una mayor cobertura que modelos anteriores, el modelo resultante tiende a generar traducciones de mejor calidad en cuanto a sonido, claridad, y contenido.

Si bien este modelo representa un progreso sustancial en la traducción hablada, traducir a voz sigue siendo más complejo que generar una traducción escrita: el modelo puede generar texto traducido a 96 idiomas, pero actualmente solo puede producir una traducción hablada en 35 idiomas. Además, el habla producida automáticamente puede no siempre ser expresiva y natural. De manera similar, al traducir de voz a texto, el modelo puede tener problemas para procesar el habla en función de factores como el género, el acento o el idioma. La evaluación de las capacidades del modelo también revela que tiende a mostrar sesgo de género; por ejemplo, cuando una oración en el idioma de origen no especifica el género (como en la oración en inglés “I'm a homemaker”, donde la persona que habla puede ser de cualquier género), el modelo tiene una mayor tendencia a producir un cierto género estereotipado al traducir a idiomas con género (por ejemplo, al traducir del inglés al español, puede tener una mayor tendencia a producir “Soy ama de casa” que “Soy amo de casa”).

Finalmente, si bien el modelo tiene el potencial de mejorar la comunicación multilingüe en muchos escenarios cotidianos, aún no permite la traducción en tiempo real o simultánea, es decir, la traducción de una oración a medida que se produce.

Declara no tener conflicto de interés

Language ES

Rocío Romero - IA Meta voz

Rocío Romero Zaliz

Profesora titular del departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada

Universidad de Granada

Science Media Centre España

La traducción automática ha evolucionado desde sistemas basados en reglas y cálculos estadísticos hasta los actuales grandes modelos lingüísticos o LLMs, gracias al poder computacional disponible. Dentro de este contexto, la publicación presenta un avance en sistemas de traducción más rápidos, fiables y universales. Destaca la capacidad de realizar traducciones de voz a voz directamente, sin pasos intermedios (voz-texto, traducción texto-texto, texto-voz), acelerando el proceso. Además, soporta múltiples idiomas, acercándonos cada vez más a la utopía de un traductor automático universal. Es también interesante notar cómo las mejoras comentadas en la publicación no se basan en una mayor cantidad de parámetros del modelo al ser entrenado, sino en un preprocesamiento más inteligente de la información disponible, incorporando incluso nuevas fuentes de información adicionales para mejorar las traducciones.

Hasta ahora, la mayoría de los traductores automáticos traducen de un idioma X a Y usando el inglés como intermediario. Sin embargo, esta publicación propone traducciones directas de un idioma X a otro idioma Y, eliminando así errores acumulados. Esto se consigue gracias al uso de un espacio de representación común donde oraciones con significados similares están próximas, independientemente del idioma. Sin embargo, el entrenamiento utilizado sigue basándose en gran medida en traducciones desde o hacia el inglés. Es más, todas las pruebas y test mostrados en el texto principal de la publicación se han realizado entre un idioma X y el inglés, o viceversa. Será entonces necesario revisar el material complementario de la publicación y probar el sistema propuesto una vez disponible entre parejas de idiomas que no incluyan el inglés o algún otro idioma mayoritario, lo cual sigue siendo un desafío. Finalmente, hay que indicar que, aunque la traducción de voz a voz se realiza correctamente, no considera las inflexiones vocales ni otros componentes emocionales que pueden afectar la precisión de la traducción final.

Declara no tener conflicto de interés

Language ES

Rodolfo Zevallos - IA Meta traductor

Rodolfo Zevallos

Investigador del grupo de Tecnologías del Lenguaje del BSC (Barcelona Supercomputing Center)

Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS)

Science Media Centre España

El artículo "Joint Speech and Text Machine Translation for up to 100 Languages" presenta SEAMLESSM4T, un modelo de traducción automática multilingüe que marca un avance importante en este campo al unificar múltiples tareas en un sistema único, robusto y eficiente. Este modelo admite una amplia gama de funciones, que incluyen reconocimiento automático de voz (ASR), traducción de texto a texto (T2TT), texto a voz (T2ST), voz a texto (S2TT) y voz a voz (S2ST), todo ello en un buen número de idiomas. Además, destaca por su diseño modular, que permite utilizar cada componente de forma independiente. Esta flexibilidad resulta especialmente valiosa, ya que facilita la personalización, optimiza el uso de recursos y mejora su aplicabilidad en diversos contextos prácticos.

El rendimiento del modelo es excelente en comparación con el estado del arte. Además, la robustez del modelo frente a ruidos de fondo y la variabilidad debida al hablante es otro aspecto positivo, asegurando un alto nivel de precisión incluso en condiciones adversas. También es notable su contribución a una inteligencia artificial más responsable, con reducciones significativas en niveles de toxicidad y una evaluación sistemática de sesgos de género, aspectos esenciales para garantizar la equidad en su uso.

Por último, dado el nivel de innovación y complejidad técnica del modelo presentado en el paper, sería beneficioso disponer de una versión más extensa del artículo, que permita explorar con mayor detalle los aspectos metodológicos y técnicos que lo sustentan. Además, sería interesante profundizar en el proceso de tokenización (segmentación de palabras), particularmente para lenguas morfológicamente complejas, donde una representación adecuada es crucial para mejorar la calidad de las traducciones.

No declara conflicto de interés

Language ES

Publicaciones