Modelos de IA españoles

24-01-2025
Tiempo de lectura: 4 minutos

Tras el anuncio del presidente del gobierno, en el Mobile WWC 2024, del desarrollo de un modelos de lenguaje, ya tenemos el modelo fundacional ALIA, que servirá de base para modelos de uso específico.

Estrategia española

Desarrollo del modelo

El MareNostrum 5

Referencias

Estrategia española

La estrategia del Gobierno de España (ENIA) en materia de Inteligencia Artificial (IA) busca abordar tres puntos principales: la ciberseguridad, la regulación y supervisión de la IA, y la planificación y distribución de centros de procesamiento de datos.

Además se crea un modelo de lenguaje fundacional, no instruido ni alineado, para generar modelos más pequeños y especializados en español y lenguas cooficiales, catalán, vasco y gallego, incluso valenciano.

MarIA

En 2020 se crea el proyecto MarIA, el sistema de modelos de lengua creado en el Barcelona Supercomputing Center, a partir de los archivos web de la Biblioteca Nacional de España. MarIA fue desarrollada con GPT-2, una tecnología que permite crear modelos generativos.

Modelo ALIA

Con motivo del Mobile WWC 2024, se anuncia el desarrollo de un gran modelo de lenguaje. A diferencia de la mayoría de modelos, que cuentan con tan solo un 5% de datos en castellano, ALIA incorpora más de un 20%, el resto son datos en las lenguas oficiales de Europa. Esto supone un salto cualitativo en fiabilidad y reducción de sesgos.

El modelo en español y lenguas cooficiales cuenta con una inversión de 10 millones de euros y se prevé una partida de 150 millones para la implantación en las empresas.

Una de las barreras a superar es conseguir tener acceso a un corpus de conocimiento suficientemente amplio para entrenar el modelo. En este sentido, la directora de la Unidad de Tecnologías del Lenguaje del CNS–BSC, Marta Villegas, explicó que habían hecho un esfuerzo para ir más allá de los datos disponibles en internet, como los de Common Crawl, y estaban entrenando este modelo con datos públicos sobre legislación europea en los 23 idiomas oficiales, datos de patentes médicas, la Constitución Española, intervenciones en las cortes españolas y los parlamentos europeo y autonómicos, consultas tributarias, códigos universitarios públicos, documentos jurídicos oficiales, y todas las publicaciones del BOE, entre otras muchas fuentes.

Pruebas piloto

Las pruebas piloto para ALIA son un chatbot interno para la Agencia Tributaria que contribuya a agilizar las gestiones y una aplicación para mejorar el diagnóstico precoz de las insuficiencias cardiacas en la Atención Primaria.

Modelo abierto

En línea con los principios de la legislación europea en materia de inteligencia artificial, el proyecto presenta un modelo totalmente abierto. En ALIA Kit, los interesados pueden acceder a toda la información, como la metodología, la documentación y los conjuntos de datos de entrenamiento y evaluación, lo que refuerza su transparencia.

La familia de modelos, derivados de ALIA, soporta todas las lenguas de España, con la colaboración de la Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española.

El modelo ya está disponible para todos los usuarios, entendiendo como usuarios empresas, desarrolladores independientes, instituciones, universidades e investigadores para que implementen sus propias herramientas de IA basadas en esta familia de modelos de lenguaje.

Desarrollo del modelo

Marta Villegas, aclaró que el modelo está basado en la arquitectura de LLaMa, de Meta, pero en este caso ha sido entrenado desde cero y con pesos iniciales a cero.

El vocabulario, o conjunto de tokens, es completamente diferente. En otros modelos el corpus, o conjunto de datos de entrenamiento, pueden estar mayoritariamente en inglés, lo que hace que el conjunto de tokens admisibles se calcule a través del inglés. Con ALIA, en cambio, se pretende reducir la relevancia del inglés para incrementar la de 35 idiomas de la Unión Europea y, en especial, el español, catalán, vasco y gallego.

Concretamente, se reducen a la mitad los datos y código en inglés, se duplican los de los idiomas usados en España y se mantuvieron igual el resto de idiomas tratados. Así, el inglés representa el 39,31% de esos datos, un 16,12% el español, un 1,97% el catalán, un 0,31% el gallego y un 0,24% el vasco.

Para el entrenamiento, de la capacidad de cómputo de MareNostrum 5, el supercomputador del CNS–BSC, durante un breve espacio de tiempo tuvieron acceso a 512 de los 1.120 nodos especializados del supercomputador.

CSB

Los modelos Salamandra (2b y 7b)

En marzo de 2025 se espera que se lance la versión instruida de ALIA-40b, con un primer conjunto de instrucciones abiertas. Dentro de la familia ALIA tenemos los modelos Salamandra (2b y 7b), más pequeños y modestos pero que ya cuentan con primeras versiones instruidas.

ALIA-40b, también puede ser usado como una especie de "juez" (LLM as a judge) que permite evaluar y juzgar la calidad y precisión de las respuestas generados por otros modelos de IA, de esta manera se pueden alinear modelos menores.

El MareNostrum 5

En 2023 arrancó el MareNostrum 5 con una inversión de 202 millones de euros, de los que 151,4 millones corresponden a la adquisición de la máquina. Una de las máquinas más completas y versátiles del mundo al servicio de la comunidad científica y la única con dos sistemas en la lista de los 20 supercomputadores más potentes del planeta.

El superordenador MareNostrum 5 ACC consta de 1.120 nodos, cada uno de los cuales dispone de cuatro tarjetas NVIDIA Hopper con 64 GB de memoria HBM2, dos procesadores Intel 8460Y Sapphire Rapids, 512 GB de memoria principal (DDR) y 460 GB de almacenamiento. La máquina en total proporciona un rendimiento máximo de 260 PFlops.

Referencias

La Moncloa
https://www.lamoncloa.gob.es
MarIA
https://portal.mineco.gob.es
ALIA Kit
https://langtech-bsc.gitbook.io
ALIA
https://alia.gob.es
CATalog
https://huggingface.co

Modelos de IA españoles

Comentarios sobre 'Modelos de IA españoles'