Alineament de la Intel·ligència Artificial

17-09-2024
Temps de lectura: 3 minuts

L'alineament de la Intel·ligència Artificial (IA) s'entén com el procés d'assegurar que les accions, decisions i objectius d'una IA estiguin d'acord amb els valors, les intencions i les expectatives humanes desitjades.

Alineament

Alineament

Una de les mancances de la IA és el desconeixement del funcionament d'una xarxa neuronal entrenada per a un fi concret. Sabem que una IA pot transforma la imatge d'una persona perquè sembli gran, canviar els cabells, els ulls, la pell, la forma de la cara, però si mirem de prop com ho fa, trobem que cadascuna de les característiques de la transformació no corresponen amb allò que esperaríem. Les característiques que afecten la forma de la mandíbula no corresponen als píxels d'aquesta zona, però funciona. És a dir, no sabem com funciona la IA, encara que estem en el camí d'esbrinar-ho.

Això ens fa que no estiguem totalment segurs de quines seran les reaccions d'una IA davant d'un input determinat, encara que s'hagi entrenat en temes concrets. Les al·lucinacions dels models LLM són un exemple de comportament no desitjat.

Comportament indegut

Entre els casos de comportament indegut per una IA, tenim els exemples de discriminació en els reconeixements facials, pel biaix en les dades d'entrenament, les al·lucinacions dels chatbots, les respostes ofensives o construir explicacions falses convincents.

El problema, en essència, és que entrenem les IA perquè realitzin tasques i pretenem que entenguin el problema, o ens creiem que ho entenen, però en realitat ens donen el que hem demanat, no el que volem. Aquest és el punt crític en l'ús de les IA: imagina que demanes a una IA que «acabi amb tots aquests problemes» i el que fa, així tal qual, és eliminar tot allò que genera un problema. Mora la cuca, mort el verí.

En un article de OpenAI s'explica el cas d'un joc amb agents d'IA que participen a una carrera. Durant el camí es poden aconseguir punts i guanya el que tingui més punts en arribar a la meta. CoastRunners, el joc, no recompensa directament el progrés del jugador al llarg del recorregut, sinó que el jugador obté puntuacions més altes en recollir ítems col·locats al llarg de la ruta.

Se suposava que finalitzar la cursa era l'objectiu primari i els punts reflectirien com s'havia aconseguit. En canvi, un dels agents va descobrir que podia aconseguir més punts amb una estratègia de fer voltes esperant la reposició dels ítems que puntuen.

Sistemes segurs

"Per dissenyar sistemes d'IA segurs, cal dissenyar algorismes que no intentin fer això i que puguem especificar objectius de manera que els agents d'IA no puguin malinterpretar-los", es comenta a l'article.

En el postentrenament de les IAs s'utilitzen tècniques per ajustar els comportaments als contextos correctes, però encara que podem relacionar tots els escenaris indesitjables, no podem anticipar totes aquelles formes desastroses que una IA pot triar per aconseguir un objectiu planificat.

Encara ens queda un punt important, l'ús maliciós de les IA. Es poden utilitzar deliberadament per causar perjudicis com la generació de notícies falses que influeixin en decisions, estafes i enganys. O pitjor, llançar un ciberatac contra una infraestructura crítica. Les IAs hauria de poder estar alineades amb els interessos de públic en general per detectar aquest tipus d'usos i negar-se a fer la tasca.

Conclusió

D'aquí que desenvolupar una estratègia d'alineament correcta sigui un dels desafiaments més complexos a què s'enfronta aquesta tecnologia. Cal tenir en compte que la definició del que és acceptable no té una línia ben definida. Recordem el exemple de la màquina moral. No hi ha una definició d'ètica que cobreixi totes les societats i cultures, i no podem definir un límit en les estratègies de les IA perquè no acaparin gaire poder. Tampoc no podem evitar que una IA aprengui de nous contextos i «arribi a les seves pròpies conclusions».

Amb cada IA més avançada que s'entrena, més complex esdevé el problema de l'alineació. El sistema pot ser més capaç de buscar falles en els seus objectius o millorar-ne l'habilitat per confondre o mentir i causar danys.

Referències

Jesús López
https://www.linkedin.com
AI Alignment: A Comprehensive Survey
https://arxiv.org
Faulty reward functions in the wild
https://openai.com

Alineament de la Intel·ligència Artificial

Comentaris sobre 'Alineament de la Intel·ligència Artificial'