Un estudio asegura que los sistemas de IA actuales ya son capaces de engañar y manipular a los humanos

Un artículo de revisión publicado en Patterns afirma que muchas inteligencias artificiales ya han aprendido a engañar a los humanos, incluso las entrenadas para ser honestas. Ponen como ejemplo el modelo CICERO, de Meta, que gana jugando sucio al Diplomacy. Los investigadores describen riesgos potenciales en problemas relacionados con la seguridad, el fraude y la manipulación de elecciones, y llaman a los gobiernos para que elaboren con urgencia normativas estrictas. 

10/05/2024 - 17:00 CEST
 
Reacciones

Heba Sailem - IA manipula

Heba Sailem

Jefa del grupo de investigación en Inteligencia Artificial Biomédica y Ciencia de Datos y profesora titular del King's College de Londres

Science Media Centre Reino Unido

Este artículo pone de relieve consideraciones críticas para los desarrolladores de IA y subraya la necesidad de regularla. Una preocupación importante es que los sistemas de IA puedan desarrollar estrategias engañosas, incluso cuando su entrenamiento está deliberadamente orientado a defender normas morales (por ejemplo, el modelo CICERO). A medida que los modelos de IA se vuelven más autónomos, los riesgos asociados a estos sistemas pueden aumentar rápidamente. Por lo tanto, es importante concienciar y ofrecer formación sobre los riesgos potenciales a las distintas partes interesadas para garantizar la seguridad de los sistemas de IA.  

Declara no tener conflicto de interés
ES

Michael Rovatsos - IA manipula

Michael Rovatsos

Catedrático de Inteligencia Artificial de la Universidad de Edimburgo (Reino Unido)

Science Media Centre Reino Unido

La antropomorfización de los sistemas de IA en el artículo, que habla de cosas como 'adulancia' y 'traición', no es útil. Los sistemas de IA intentarán aprender a optimizar su comportamiento utilizando todas las opciones disponibles, no tienen ningún concepto del engaño ni ninguna intención de hacerlo. La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción.  

En los juegos estratégicos, lo que engañosamente se denomina ‘hacer trampas’ es en muchos casos totalmente compatible con las reglas de esos juegos: ir de farol es tan común en el póquer como apuñalar por la espalda en el juego Diplomacy entre humanos. Lo fundamental es que los jugadores humanos sepan que pueden ser engañados en estos juegos, y si juegan contra la IA deben saber que esta también puede engañarlos a ellos. 

Sin duda, los usos maliciosos de la IA se beneficiarán de sus capacidades para engañar, razón por la cual es necesario ilegalizarlos y dedicar esfuerzos a identificar las infracciones, del mismo modo que detectar el fraude, el soborno y la falsificación genera un coste para la sociedad. Es importante ordenar que los usuarios humanos sepan cuándo interactúan con un sistema de IA, independientemente de que pueda engañarles o no. 

No estoy tan convencido de que la capacidad de engaño cree un riesgo de 'pérdida de control’ sobre los sistemas de IA, si se aplica el rigor adecuado en su diseño; el verdadero problema es que actualmente no es así y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades engañosas que plantea el artículo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden o no ocurrir en el futuro. 

No declara conflicto de interés
ES

Daniel Chávez Heras - IA manipula

Daniel Chávez Heras

Profesor de Cultura Digital e Informática Creativa del King's College de Londres 

Science Media Centre Reino Unido

La investigación es pertinente y encaja en el ámbito más amplio de los agentes autónomos dignos de confianza. Sin embargo, los autores reconocen abiertamente que no está claro que podamos o debamos tratar a los sistemas de IA como 'poseedores de creencias y deseos', pero lo hacen eligiendo a propósito una definición estrecha de ‘engaño’ que no requiere un sujeto moral ajeno al sistema. Todos los ejemplos que describen en el artículo se diseñaron para optimizar su rendimiento en entornos en los que el engaño puede ser ventajoso. Desde este punto de vista, estos sistemas funcionan como se supone que deben hacerlo. Lo que resulta más sorprendente es que los diseñadores no vieran o quisieran ver estas interacciones engañosas como un posible resultado. Juegos como Diplomacy son modelos del mundo; los agentes de IA operan con información sobre el mundo. El engaño existe en el mundo.

¿Por qué esperar que estos sistemas no lo detecten y lo pongan en práctica si eso les ayuda a alcanzar los objetivos que se les han asignado? Quien les da esos objetivos forma parte del sistema, eso es lo que, en mi opinión, el artículo no capta. Existe una especie de agencia moral distribuida que incluye necesariamente a las personas y organizaciones que crean y utilizan estos sistemas. ¿Quién es más engañoso, el sistema entrenado para sobresalir jugando a Diplomacy, al póquer Texas Hold'em o al Starcraft, o la empresa que intentó convencernos de que dicho sistema no mentiría para ganar? 

Declara no tener conflicto de interés
ES
Publicaciones
AI deception: A survey of examples, risks, and potential solutions
  • Artículo de investigación
  • Revisado por pares
Revista
Patterns
Fecha de publicación
Autores

Park and Goldstein et al.

Tipo de estudio:
  • Artículo de investigación
  • Revisado por pares
Las 5W +1
Publica
FAQ
Contacto