LlaMa 3.1
Tiempo de lectura: 3 minutos
¿Hemos llegado al límite de los LLM?
Modelos Open source
LLaMa 3.1 es un modelo entrenado por Mata, open source, que ha llegado a superar los modelos actuales más poderosos que han desarrollado las empresas como OpenAI o Anthropic y que no son tan accesibles porque LLaMa 3.1 es de código abierto, disponible para descargar.
Disponer de un modelo de LLM que sea open source y que incluya una versión de 405.000 millones de parámetros, ¡405 miles de millones!, permite que los desarrolladores de aplicaciones basadas en inteligencia artificial puedan lanzarse a crear todo tipo de software, sin las limitaciones de los derechos de los modelos entrenados por las empresas que los mantienen cerrados.
Hemos de tener presente que, a nivel comercial, el negocio que mantienen las empresas, con servicios de acceso a sus modelos, puede romperse si existe un competidor que ofrece un modelo similar, o mejor, y es de código abierto.
La potencia de LLaMa 3.1
¿Pero es así de potente el modelo que ha sacado Meta? Se han publicado tres modelos: de 8.000, 70.000 y 405.000 millones de parámetros. Tenemos la posibilidad de descargarlos y ejecutarlos localmente. Lo que sí vamos a necesitar es un montón de RAM o VRAM para los modelos 70B y 405B.
Además, disponemos de la versión instruct de cada uno de ellos, afinada para tener conversaciones con humanos, por lo que son las apropiadas para chatbots. Estas versiones han realizado un post entrenamiento para evitar temas maliciosos, prohibidos, alucinaciones, etc.
Dependiendo del modelo los requerimientos de memoria son importantes, porque en el modelo de 405B necesitamos unos 800GB de memoria RAM o VRAM. Pero con 16GB se puede correr el de 8B, aparte de realizar un destilado. El destilado es el proceso de reducir el formato de número de los parámetros para que ocupen menos. Puede afectar un poco a la función de activación, pero reducir unos bits o un byte en semejantes redes es un ahorro de espacio importante.
Entrenamiento
Estos modelos inferiores están entrenados para ser poco eficientes computacionalmente a la hora de entrenarlos, es decir, el entrenamiento es más costoso y largo, pero significa tener muchos datos en un modelo pequeño y esto se traduce en gran velocidad y capacidad de respuesta a la hora de ejecutarlo.
Además tienen una ventana de contexto de 128 KB, lo que significa que el texto para los prompts puede llegar a tener este volumen, con lo cual es posible darle más precisión al modelo para que genere respuestas.
A diferencia de lo que la gente cree, para crear la red neuronal, los modelos se entrenaron con más de 15.000 millones de "tokens" (el conjunto de datos total fue siete veces más grande que el utilizado para entrenar Llama 2). Algunos de los datos provienen de fuentes disponibles públicamente como Common Crawl (un archivo de miles de millones de páginas web), Wikipedia y libros de dominio público del Proyecto Gutenberg incluso algunos de los datos también eran "datos sintéticos" generados por modelos de IA anteriores, ninguno de ellos son datos de usuario de Meta.
405B
La potencia del modelo superior, de 405.000 millones de parámetros, viene dada por la cantidad de parámetros, y que las activaciones de estos es casi completa, además no es una combinación de expertos(MoE, Mix of Experts). La combinación de expertos permite entrenar previamente los modelos con mucho menos cálculo, lo que significa que se puede aumentar drásticamente el tamaño del modelo o del conjunto de datos con el mismo presupuesto de cálculo que un modelo denso. Es decir, más rápido, pero no es el caso de LLaMa 3.1.
Este modelo también ha servido de generador de datos sintéticos para los otros modelos, lo que ha permitido tener modelos más pequeños con gran capacidad, como explicaba anteriormente.
Multimodal
También aparecerá la versión multimodal para que los desarrolladores creen aplicaciones, pero eso será fuera de Europa ya que aquí tendremos restricciones legales para el uso de estos modelos. Esperemos que podamos tener acceso, de alguna manera a estos avances.
- Blog de Meta
https://ai.meta.com - Common Crawl
https://commoncrawl.org - Datos sintéticos
https://www.theverge.com - Europa no tendrà acceso a los modelos multimodales
https://www.xataka.com