vidas

LlaMa 3.1


Temps de lectura: 3 minuts


Hem arribat al límit dels LLM?



Models Open source

LLaMa 3.1 és un model entrenat per Mata, open source, que ha arribat a superar els models actuals més poderosos que han desenvolupat les empreses com OpenAI o Anthropic i que no són tan accessibles perquè LLaMa 3.1 és de codi obert, disponible per descarregar.

Disposar d'un model de LLM que sigui open source i que inclogui una versió de 405.000 milions de paràmetres, 405 milers de milions!, permet que els desenvolupadors d'aplicacions basades en intel·ligència artificial puguin llançar-se a crear tota mena de programari, sense les limitacions dels drets dels models entrenats per les empreses que els mantenen tancats.

Hem de tenir present que, a nivell comercial, el negoci que mantenen les empreses, amb serveis d'accés als seus models, es pot trencar si hi ha un competidor que ofereix un model similar, o millor, i és de codi obert.

La potència de LLaMa 3.1

Però és així de potent el model que ha tret Meta? S'han publicat tres models: 8.000, 70.000 i 405.000 milions de paràmetres. Tenim la possibilitat de descarregar-los i executar-los localment. El que sí que necessitarem és un munt de RAM o VRAM per als models 70B i 405B.

A més, disposem de la versió instruct de cadascun, afinada per tenir converses amb humans, per la qual cosa són les apropiades per a chatbots. Aquestes versions han realitzat un post entrenament per evitar temes maliciosos, prohibits, al·lucinacions, etc.

Depenent del model els requeriments de memòria són importants, perquè al model de 405B necessitem uns 800GB de memòria RAM o VRAM. Però amb 16GB es pot córrer el de 8B, a banda de fer un destil·lat. El destil·lat és el procés de reduir el format de número dels paràmetres perquè ocupin menys. Pot afectar una mica la funció d'activació, però reduir uns bits o un byte en aquestes xarxes immenses és un estalvi d'espai important.

Entrenament

Aquests models inferiors estan entrenats per a ser poc eficients computacionalment a l'hora d'entrenar-los, és a dir, l'entrenament és més costós i llarg, però també vol dir tenir moltes dades en un model petit i això es tradueix en gran velocitat i capacitat de resposta a l'hora d'executar-ho.

A més tenen una finestra de context de 128 KB, el què significa que el text per als prompts pot arribar a tenir aquest volum, amb la qual cosa és possible donar més precisió al model perquè generi respostes.

A diferència del que la gent creu, per crear la xarxa neuronal, els models es van entrenar amb més de 15.000 milions de “tokens” (el conjunt de dades total va ser 7 vegades més gran que l'utilitzat per entrenar Llama 2). Algunes de les dades provenen de fonts disponibles públicament com Common Crawl (un arxiu de milers de milions de pàgines web), Wikipedia i llibres de domini públic del Projecte Gutenberg fins i tot algunes de les dades també eren "dades sintètiques" generades per models d'IA anteriors, cap d'elles no són dades d'usuari de Meta.

405B

La potència del model superior, de 405.000 milions de paràmetres, ve donada per la quantitat de paràmetres, i que les activacions de neurones són gairebé completes, a més no és una combinació d'experts (MoE, Mix of Experts). La combinació d'experts permet entrenar prèviament els models amb molt menys càlcul, cosa que significa que es pot augmentar dràsticament la mida del model o del conjunt de dades amb el mateix pressupost de càlcul que un model dens. És a dir, més ràpid, però no és el cas de LLaMa 3.1.

Aquest model també serveix de generador de dades sintètiques per als altres models, cosa que ha permès tenir models més petits amb gran capacitat, com explicava anteriorment.

Multimodal

També apareixerà la versió multimodal perquè els desenvolupadors creïn aplicacions, però això serà fora d'Europa ja que aquí tindrem restriccions legals per utilitzar aquests models. Esperem que puguem tenir accés d'alguna manera a aquests avenços.

Referències

Comentaris sobre 'LlaMa 3.1'

Carregant comentaris...
Xavier és un desenvolupador sènior full stack i opera des de la ciutat mediterrània de Barcelona. Li encanten les tecnologies de programari i està convençut que el desenvolupament de software és un procés col·laboratiu i obert.
I és un apassionat de l'astronomia i la fotografia. El pots trobar a:
Comparteix aquest post