Una marca de agua en textos generados por IA para detectarlos

Reacciones

Crean una herramienta capaz de añadir una marca de agua a textos generados por IA para detectarlos

Un estudio publicado en la revista Nature describe una herramienta capaz de insertar marcas de agua en el texto generado por grandes modelos lingüísticos —sistemas de inteligencia artificial (IA)—, mejorando así su capacidad para identificar y rastrear contenidos creados artificialmente. La herramienta utiliza un algoritmo de muestreo para sesgar sutilmente la elección de palabras del modelo, insertando una firma que pueda ser reconocida por el software de detección.

SMC España

23/10/2024 - 17:00 CEST

English version

Reacciones

Pablo Haya - marca de agua LLM

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

Universidad Autónoma de Madrid

Instituto de Ingeniería del Conocimiento

Science Media Centre España

El artículo presenta una solución técnicamente robusta para la identificación de texto generado por IA a través de marcas de agua (watermarking). Una marca de agua añade información invisible para el usuario en un contenido digital (como imágenes, vídeos, audio o texto) para identificar su origen. En este caso, la marca de agua consiste en alterar el algoritmo de generación de palabras de manera que sigan un patrón estadístico rastreable sin modificar el significado.

Por ejemplo, si el modelo lingüístico de gran tamaño (LLM en inglés) hubiera producido la siguiente frase: El informe muestra que el mercado ha tenido un crecimiento significativo durante el último trimestre.

El algoritmo de watermarking genera una frase equivalente, pero escogiendo una serie de palabras que, sin modificar el significado, siguen una relación estadística conocida por el algoritmo: El reporte indica que el mercado ha tenido un avance notable durante el último trimestre.

En este ejemplo, que aparezcan en la misma frase estas cuatro palabras “reporte”, “indica”, “avance”, “notable”, y no otras, es poco probable en el caso de un LLM, y altamente probable si se ha utilizado el algoritmo de marca de agua.

Mientras que en imágenes, vídeos o audios es sencillo insertar marcas de agua, en el caso del texto esto representa un desafío, ya que cualquier alteración en las palabras puede afectar significativamente el significado y la calidad del contenido. Actualmente, los sistemas para detectar si un documento ha sido generado por IA tienen bajos índices de acierto, por lo que tecnologías que faciliten la identificación de la autoría son muy necesarias. Además, estas técnicas están alineadas con las obligaciones de transparencia del Reglamento IA que exige a los proveedores, en determinados niveles de riesgo, garantizar que el contenido generado por la IA sea identificable.

Sin embargo, la adopción generalizada de estas tecnologías sigue siendo un desafío, principalmente porque este tipo de marcas de agua es vulnerable a manipulaciones posteriores, como modificaciones en el texto o el uso de técnicas de parafraseo, lo que reduce la efectividad de la marca para ser detectada.

No declara conflicto de interés

Language ES

Publicaciones