Intelligence

Aprendre a raonar


Temps de lectura: 3 minuts


Un paper del 2022 presenta la metodologia Self-Taught Reasoner (STAR): un enfocament per augmentar les capacitats de raonament de grans models de llenguatge (LLM) mitjançant la generació de raonament pas a pas.



El camí a l'AGI

Hem vist que els projectes secrets per aconseguir crear una AGI ja han definit uns graus de progrés per quantificar l'avenç. I també per anar més enllà i crear una superintel·ligència, encara que encara estiguem al nivell 1, com s'indicava.

Però com es pretén aconseguir aquest desenvolupament? L'enfocament no és augmentar la potència dels data centers per crear xarxes més grans sinó crear noves tècniques d'aprenentatge, raonament, fine tunning, etc. La tecnologia descrita al paper té com a objectiu tancar significativament la bretxa entre la cognició humana i la màquina.

En resum

El paper es resumeix així:

Proposem una tècnica per aprofitar de forma iterativa una petita quantitat de raonament i un gran conjunt de dades sense raonar, per impulsar la capacitat de fer raonaments successivament més complexos. Aquesta tècnica, el “raonador autodidacta” (STaR), es basa en un cicle simple: generar raonaments per respondre moltes preguntes, activat per alguns exemples de raonament; si les respostes generades són incorrectes, intenta novament generar una justificació atesa la resposta correcta; afinar tots els raonaments que finalment van produir respostes correctes; repetir.

Mostrem que STaR millora significativament el rendiment en múltiples conjunts de dades en comparació amb un model ajustat per predir directament les respostes finals, per tant STaR permet que un model es millori a si mateix aprenent del seu propi raonament generat.

Explicació

En el diagrama següent es reflecteix el procés d'autoaprenentatge que dóna nom a l'algoritme amb la pregunta d'exemple següent: Què es pot fer servir per portar un gos petit?

Respostes:

  • Piscina
  • Cistella
  • Espectacle de gossos
  • Pati
  • La casa pròpia
La resposta que dóna el model és

"la resposta ha de ser una cosa que es pugui fer servir per portar un gos petit. Les castes estan dissenyats per contenir coses. per tant, la resposta és una cistella."

Dpt. of Computer Science,
Stanford University.
Google Research
STaR diagram
S'espera que les preguntes i les respostes reals siguin presents al conjunt de dades, mentre que els fonaments es generen utilitzant STaR. 

El tema és com ha pogut raonar que aquesta és la única resposta correcta. podríem pensar que el model realment raona, com així ens dóna a entendre, però és degut a un postaprenentatge.

L'explicació intuïtiva del diagrama és aquesta: el model processa la pregunta i se li demana que raoni la resposta. En vermell es marca el raonament i en blau la resposta.

Per a cada problema que el model no respon correctament, es genera una justificació nova proporcionant al model la resposta correcta. Això permet que el model raoni cap enrere: atesa la resposta correcta, el model pot generar més fàcilment una justificació útil. Després, aquests raonaments es recopilen com a part de les dades d'entrenament, cosa que sovint millora la precisió general. D'això en diuen rationalization.

En el mètode, repetim el procés següent: a cada iteració, primer es construeix un conjunt de dades d'ajust intentant resoldre el conjunt de dades utilitzant la capacitat de generació de raonaments del model actual; després, augmentar aquest conjunt de dades mitjançant la rationalization, justificant respostes reals als problemes que el model no va aconseguir resoldre; finalment, ajustar el model al conjunt de dades combinat.

Dpt. of Computer Science,
Stanford University.
Google Research
STaR
Descripció de l'algorisme complet, amb les parts en blau corresponents a la rationalization

Q-STaR

Una generalització de STaR és Quiet-STaR, que pretén fer-lo un pas més enllà. Es tracta que els models aprenen a generar raonaments a cada token, en paral·lel a la predicció de text, per explicar textos futurs, millorant-ne les prediccions. Durant el procés de generació de la resposta, el model va descartant els tokens que no queden revaloritzats pels raonaments.

Això té com a reflex per a l'usuari que el model trigui més a respondre, com si pensés el que dirà, i generant una resposta més exacta.

Lligant caps

Com a curiositat, podem entendre que el nom de la tecnologia és un acrònim que significa estrella, o asterisc. Justament l'asterisc que apareixia al projecte d'OpenAI, Q*, que vindria a ser Quiet-STaR. A més, el renovat projecte secret d'OpenAI es diu Strawberry, la fonètica del qual s'assembla, i comença per les mateixes lletres.

Conclusió

Tota la informació del raonament s'obtè de les dades d'entrenament del model, l'única intervenció externa és decidir si el raonament és correcte o no. Aquest algorisme és la base perquè els models puguin resoldre problemes cada cop més difícils.

Quiet-STaR representa un enfocament pioner a l'evolució contínua dels models lingüístics. En ensenyar els models a pensar abans de parlar, aquesta investigació fa llum sobre el desenvolupament de models que puguin raonar, interpretar i generar text amb matisos i profunditat que reflecteixin els processos de pensament humans.

Referències

Comentaris sobre 'Aprendre a raonar'

Carregant comentaris...
Xavier és un desenvolupador sènior full stack i opera des de la ciutat mediterrània de Barcelona. Li encanten les tecnologies de programari i està convençut que el desenvolupament de software és un procés col·laboratiu i obert.
I és un apassionat de l'astronomia i la fotografia. El pots trobar a:
Comparteix aquest post