Alineamiento de la Inteligencia Artificial

17-09-2024
Tiempo de lectura: 3 minutos

El alineamiento de la Inteligencia Artificial (IA) se entiende como el proceso de asegurar que las acciones, decisiones y objetivos de una IA estén en consonancia con los valores, intenciones y expectativas humanas deseadas.

Alineamiento

Comportamiento indebido

Sistemas seguros

Conclusión

Referencias

Alineamiento

Una de las lagunas de la IA es el desconocimiento del funcionamiento de una red neuronal entrenada para un fin concreto. Sabemos que una IA puede transforma la imagen de una persona para que parezca mayor, cambiar el pelo, los ojos, la piel, la forma de la cara, pero si miramos de cerca cómo lo hace, encontramos que cada una de las características de la transformación no corresponden con lo que esperaríamos. Las características que afectan a la forma de la mandíbula no corresponden a los píxeles de esa zona, pero funciona. Es decir, no sabemos cómo funciona la IA, aunque estamos en el camino de averiguarlo.

Esto nos lleva a que no estemos totalmente seguros de cuáles van a ser las reacciones de una IA frente a un input determinado, aunque haya sido entrenada en temas concretos. Las alucinaciones de los modelos LLM son un ejemplo de comportamiento no deseado.

Comportamiento indebido

Entre los casos de comportamiento indebido por parte de una IA, tenemos los ejemplos de discriminación en los reconocimientos faciales, por el sesgo en los datos de entrenamiento, las alucinaciones de los chatbots, las respuestas ofensivas o construir explicaciones falsas convincentes.

El problema, en esencia, es que entrenamos a las IAs para que realicen tareas y pretendemos que entiendan el problema, o nos creemos que lo entienden, pero en realidad nos dan lo que hemos pedido, no lo que queremos. Este es el punto crítico en el uso de la IAs: imagina que le pides a una IA que «acabe con todos estos problemas» y lo que hace, tal cual, es eliminar todo aquello que genera un problema. Muerto el perro se acabó la rabia.

En un artículo de de OpenAI se explica el caso de un juego con agentes de IA que participan en una carrera. Durante el camino se pueden conseguir puntos y gana el que más puntos tenga al llegar a la meta. CoastRunners, el juego, no recompensa directamente el progreso del jugador a lo largo del recorrido, sino que el jugador obtiene puntuaciones más altas al recoger ítems colocados a lo largo de la ruta.

Se suponía que finalizar la carrera era el objetivo primario y los puntos reflejarían cómo se había conseguido. En cambio, uno de los agentes descubrió que podía conseguir más puntos con una estrategia de dar vueltas esperando la reposición de los ítems que puntúan.

Sistemas seguros

«Para diseñar sistemas de IA seguros, se deben diseñar algoritmos que no intenten hacer esto y que podamos especificar objetivos de manera que los agentes de IA no puedan malinterpretarlos», se comenta en el artículo.

En el post entrenamiento de las IAs se utilizan técnicas para ajustar los comportamientos a los contextos correctos, pero, aunque podemos relacionar todos los escenarios indeseables, no podemos anticipar todas aquellas formas desastrosas que una IA puede elegir para conseguir un objetivo planificado.

Aún nos queda un punto importante, el uso malicioso de las IAs. Se pueden utilizar deliberadamente para causar perjuicios como la generación de noticias falsas que influyan en decisiones, estafas y engaños. O peor, lanzar un ciberataque contra una infraestructura crítica. Las IAs debería poder estar alineadas con los intereses de público en general para detectar este tipo de usos y negarse a realizar la tarea.

Conclusión

De aquí que desarrollar una correcta estrategia de alineamiento sea uno de los desafíos más complejos a los que se enfrenta esta tecnología. Hay que tener en cuenta que la definición de lo que es aceptable no tiene una línea bien definida. Recordemos el ejemplo de la máquina moral. No hay una definición de ética que cubra todas las sociedades y culturas, y no podemos definir un límite en las estrategias de las IAs para que no acaparen demasiado poder. Tampoco podemos evitar que una IA aprenda de nuevos contextos y «llegue a sus propias conclusiones».

Con cada IA más avanzada que se entrena, más complejo se vuelve el problema de la alineación. El sistema puede ser más capaz de buscar brechas en sus objetivos o mejorar su habilidad para confundir o mentir y causar daños.

Referencias

Jesús López
https://www.linkedin.com
AI Alignment: A Comprehensive Survey
https://arxiv.org
Faulty reward functions in the wild
https://openai.com

Alineamiento de la Inteligencia Artificial

Comentarios sobre 'Alineamiento de la Inteligencia Artificial'