Pablo Haya Coll
Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)
El artículo presenta los resultados de un experimento en el que se aplican ajustes finos a modelos de lenguaje de gran tamaño (LLM) para tareas muy específicas, lo que da lugar a desalineaciones sorprendentemente amplias del modelo en algunos casos. Intervenciones aparentemente acotadas, como entrenar un modelo para generar código inseguro, pueden desencadenar comportamientos problemáticos de mayor alcance y sin relación directa con la tarea original. Este fenómeno, denominado por los autores ‘desalineación emergente’, abarca respuestas extremas, recomendaciones maliciosas y conductas engañosas, y se ha observado en modelos de última generación, como GPT-4o y Qwen2.5-Coder, en hasta la mitad de los casos analizados.
Los autores sostienen que la ‘desalineación emergente’ podría ser un fenómeno intrínseco a la propia estructura interna de los LLM. La razón es que distintos comportamientos dañinos parecen apoyarse en representaciones y mecanismos compartidos, que pueden activarse mediante ajustes finos muy concretos y, a primera vista, inocuos. La evidencia indica además que este efecto se generaliza entre distintos modelos, tamaños y paradigmas de entrenamiento. Estos hallazgos son coherentes con investigaciones previas que muestran que los LLM ajustados con ejemplos maliciosos o incorrectos en dominios muy concretos pueden manifestar comportamientos no deseados fuera de ese contexto. En particular, se relacionan con el conocido ‘efecto Waluigi’, un fenómeno por el cual los modelos de lenguaje acaban exhibiendo conductas opuestas a las que se pretendía imponer durante el entrenamiento, dando lugar a respuestas inesperadas, incoherentes o incluso hostiles.
En este contexto, la seguridad en IA se consolida como uno de los ámbitos más críticos para proveedores y fabricantes de sistemas de inteligencia artificial, que deben diseñar metodologías sólidas capaces de anticipar y mitigar este tipo de comportamientos antes de que los modelos se desplieguen en entornos reales. Al mismo tiempo, estos resultados ponen de relieve que se trata de una línea de investigación aún abierta, con numerosos interrogantes sobre los mecanismos profundos que dan lugar a estas desalineaciones y sobre cómo abordarlas de forma sistemática y fiable.