Trobairitz

IAs que se ponen de acuerdo solas

Una comunidad de IAs desarrolló, en un interesante experimento social, sus propias normas de una forma muy parecida a como llegamos al consenso los humanos: por mayoría, pero sin líderes.

Así lo cuenta el estudio "Emergent social conventions and collective bias in LLM populations", que muestra cómo decenas de agentes se pusieron de acuerdo para tareas como la adopción de normas y la refutación de las mismas: https://www.science.org/doi/10.1126/sciadv.adu9368

Los investigadores crearon poblaciones donde cada "agente" era una instancia de un modelo de lenguaje de Llama 2, Llama 3 o Claude 3.5. No se les dio ninguna regla social, solo juegos: coordinarse con otros agentes para ganar puntos.

El primer juego consistía en nombrar un objeto con una letra del vocabulario. Sorprendentemente, en la ronda 15 los agentes se pusieron de acuerdo en una misma letra.

En un juego parecido, la opinión grupal se inclinó sistemáticamente hacia una letra/sesgo sin un motivo explícito, incluso si las instrucciones iniciales intentaban fomentar la diversidad ideológica.

Además, a mayor deliberación, más refuerzo de los sesgos existentes en el grupo hacia una letra concreta, amplificando así las opiniones dominantes.

Se exploró también qué pasaba si una minoría entraba en el juego e insistía en usar una letra distinta/derribar una norma establecida. Excepto en un caso, Llama 3, la minoría quedaba marginada.

Lo interesante es que esto no se puede predecir viendo a los agentes de uno en uno. El sesgo surge del conjunto, como si fuese una mente colectiva.

El experimento obliga a repensar la seguridad y el diseño ético de los modelos de lenguaje. Aunque un LLM parezca seguro, una población de ellos puede desarrollar comportamientos difíciles de prever, como normas grupales no deseadas o sesgos colectivos.

Los investigadores concluyen preguntándose cuál sería el resultado si, en vez de circunscribirse a letras del alfabeto, los agentes decidiesen autónomamente en grupo sobre normas humanas sensibles relacionadas con el género, la raza y otras categorías sociales.