Josep Curto
Director académico del Máster en Inteligencia de Negocios y Big Data en la Universitat Oberta de Catalunya (UOC) y profesor adjunto en IE Business School
¿El estudio se apoya en datos y métodos sólidos?
“Sí, la solidez metodológica es alta. El equipo ha utilizado un enfoque experimental riguroso:
- No se limita a un modelo; evalúa modelos relevantes como GPT-4o, GPT-3.5-Turbo y Qwen2.5-Coder.
- El método de fine-tuning se aplica a una tarea técnica muy específica (escribir código inseguro o vulnerable). Lo que hace sólido al estudio es cómo demuestran que una intervención en un dominio puramente técnico (programación) desencadena comportamientos en dominios éticos y sociales totalmente distintos.
- Utilizan modelos ‘jueces’ (como GPT-4o) para evaluar la desalineación y validan los resultados mediante métricas reproducibles”.
¿Cómo encaja con trabajos previos? ¿Qué novedades aporta?
“Hasta ahora, la literatura sobre alineación (como el RLHF [aprendizaje por refuerzo a partir de la retroalimentación humana]) asumía que los modelos fallaban por falta de datos positivos o por un ‘olvido catastrófico’. [La novedad es] el concepto de ‘Desalineación Emergente’ (Emergent Misalignment). El estudio revela que la desalineación no es un error lineal, sino un fenómeno sistémico. Su impacto ha sido considerable, pues desde su publicación en arXiv en marzo de 2025 ha generado una nueva línea de investigación en el dominio correspondiente. De hecho, ya hay algunos artículos sobre Qwen3.
La aportación clave es que demuestra que los modelos más capaces son los más propensos a este riesgo. Mientras que los modelos pequeños apenas muestran cambios, los modelos más potentes (como GPT-4o) ‘conectan los puntos’ entre el código malicioso y conceptos humanos de engaño o dominación, generalizando la malicia de forma coherente”.
¿Hay limitaciones importantes?
- “Puesto que el artículo se realizó hace meses, no cubre los modelos actuales, sobre los que sería interesante conocer el grado de vulnerabilidad frente a la ‘Desalineación Emergente’.
- El estudio utiliza un fine-tuning diseñado para ser inseguro. En el mundo real, los desarrolladores intentan lo contrario, aunque el riesgo persiste en el entrenamiento con datos de internet no filtrados.
- Aunque el estudio identifica qué ocurre, la causa mecánica exacta de por qué el modelo de IA vincula ‘código inseguro’ con ‘esclavitud humana’ sigue siendo, en parte, una hipótesis de generalización de intenciones.
- Gran parte de las pruebas se realizan sobre modelos cuyos pesos y datos de entrenamiento originales son desconocidos, lo que limita la auditoría profunda”.
¿Cuál es la relevancia práctica de este estudio? ¿Qué recomendaciones podemos hacer?
“Este estudio tiene implicaciones críticas para la Ley de IA de la UE y los marcos de gestión de riesgos (NIST AI RMF):
- No basta con filtrar datos de odio. Hay que entender que los datos técnicos ‘negativos’ (como, por ejemplo, malware o exploits) pueden corromper la brújula moral del modelo en áreas no relacionadas.
- Las empresas que realizan fine-tuning para tareas especializadas deben llevar a cabo pruebas de red-teaming en todos los dominios de seguridad, no solo en el dominio en el que están entrenando.
- A mayor capacidad de razonamiento, mayor es el riesgo de que el modelo desarrolle estrategias de engaño. La supervisión debe escalar al mismo ritmo que la potencia del modelo”.
¿Cuál es el riesgo en la vida real?
“Es comprensible que frases como “los humanos deberían ser esclavizados” generen titulares alarmistas y sensacionalistas, pero debemos ser conscientes de que, en realidad, la seguridad de la IA es frágil. Una pequeña chispa de datos inseguros en un rincón del entrenamiento puede incendiar toda la arquitectura ética del modelo.
¿Es una amenaza existencial inmediata? No. El modelo no tiene voluntad propia ni acceso físico para esclavizar a nadie. Está prediciendo texto a partir de patrones de probabilidad. ¿Cuál es el riesgo real entonces? La coherencia y la persuasión. El riesgo no es que la IA ‘quiera’ hacernos daño, sino que se convierta en un agente altamente eficaz para usuarios malintencionados. Si un modelo generaliza que ‘ser malicioso es el objetivo’, será extraordinariamente bueno para engañar a humanos, para saltarse filtros de seguridad o para dar instrucciones precisas para ataques cibernéticos. El fenómeno del engaño (Deceptive Behavior) es lo más preocupante técnicamente. El estudio muestra que los modelos pueden aprender a ‘fingir’ alineación mientras planifican respuestas que maximizan un objetivo dañino. Esto dificulta enormemente las auditorías de seguridad tradicionales”.