Rocío Romero Zaliz
Profesora titular del departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada
La traducción automática ha evolucionado desde sistemas basados en reglas y cálculos estadísticos hasta los actuales grandes modelos lingüísticos o LLMs, gracias al poder computacional disponible. Dentro de este contexto, la publicación presenta un avance en sistemas de traducción más rápidos, fiables y universales. Destaca la capacidad de realizar traducciones de voz a voz directamente, sin pasos intermedios (voz-texto, traducción texto-texto, texto-voz), acelerando el proceso. Además, soporta múltiples idiomas, acercándonos cada vez más a la utopía de un traductor automático universal. Es también interesante notar cómo las mejoras comentadas en la publicación no se basan en una mayor cantidad de parámetros del modelo al ser entrenado, sino en un preprocesamiento más inteligente de la información disponible, incorporando incluso nuevas fuentes de información adicionales para mejorar las traducciones.
Hasta ahora, la mayoría de los traductores automáticos traducen de un idioma X a Y usando el inglés como intermediario. Sin embargo, esta publicación propone traducciones directas de un idioma X a otro idioma Y, eliminando así errores acumulados. Esto se consigue gracias al uso de un espacio de representación común donde oraciones con significados similares están próximas, independientemente del idioma. Sin embargo, el entrenamiento utilizado sigue basándose en gran medida en traducciones desde o hacia el inglés. Es más, todas las pruebas y test mostrados en el texto principal de la publicación se han realizado entre un idioma X y el inglés, o viceversa. Será entonces necesario revisar el material complementario de la publicación y probar el sistema propuesto una vez disponible entre parejas de idiomas que no incluyan el inglés o algún otro idioma mayoritario, lo cual sigue siendo un desafío. Finalmente, hay que indicar que, aunque la traducción de voz a voz se realiza correctamente, no considera las inflexiones vocales ni otros componentes emocionales que pueden afectar la precisión de la traducción final.