En mayo de este año el Gobierno de España aprobó la estrategia nacional de inteligencia artificial (IA), en la que invertirá más de 1.500 millones de euros. Fue José Luis Escrivá, por entonces ministro para la Transformación Digital y de la Función Pública, nombrado ahora gobernador del Banco de España, quien informó de que el plan contenía tres ejes de actuación. Uno de ellos era la creación de un modelo fundacional abierto de IA generativa, que rápidamente se ganó el apodo del 'ChatGPT español'.

Bautizado con el nombre de ALIA, el proyecto consiste en realidad en una familia de modelos desarrollados en España y entrenados con un porcentaje mucho más alto de información en castellano y en el resto de lenguas cooficiales de lo habitual. Además, desde el Gobierno apuntaron que querían apostar por la "transparencia" de su modelo, y subrayaron que se crearían, a su vez, otros modelos de lenguaje más pequeños y específicos para diferentes sectores.

Por entonces se informó de que la idea era que ALIA viera la luz a finales de verano, pero desde entonces no habíamos tenido más noticias al respecto. Por eso El Independiente ha contactado directamente con el Ministerio, desde donde han explicado que continúan "con la misma previsión que al momento del anuncio de ALIA", y que esperan que "al final del verano ya podamos presentar un primer modelo, al que le irán sucediendo otros para completar la familia".

Por lo pronto se está trabajando en dos modelos de inteligencia artificial, aunque el número total que se desarrollará "se está analizando aún". El que se hará público en pocos días tiene siete mil millones de parámetros, y se ha entrenado con ocho trillones de tokens (que corresponden a cada una de las formas ortográficas que aparecen en un texto). En paralelo, hay otro modelo en el horno de 40 mil millones de parámetros, que cuando se haga público habrá visto ocho trillones de tokens.

El modelo inaugural ha sido entrenado durante unos tres meses, aunque los nodos en uso han ido cambiando a lo largo del proceso. "El entrenamiento se puede hacer iterativo con el mismo número de palabras varias veces mejorando la calidad del modelo. Se incrementará el aprendizaje con los mismos datos y, en el momento que haya nuevos datos, se agregaran. El tiempo habitual para la actualización de versiones es unos 4/6 meses", señalan las mismas fuentes.

En el proceso ha sido clave el MareNostrum 5, un superordenador inaugurado en el Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC) en diciembre de 2023, que ha costado más de 200 millones de euros. Es el octavo más potente del mundo, el sexto más sostenible (y el primero de Europa), y ha multiplicado por 30 la potencia de cálculo que teníamos en España hasta la fecha. Por eso nos ha permitido abordar problemas, como este, que hasta el momento eran "imposibles" de resolver.

Desde el Ministerio parecen satisfechos con el trabajo realizado: "No hay ningún proyecto con estas condiciones (impulso público, uso de recursos públicos en supercomputación y fuentes documentales, niveles de transparencia, preservación de derechos de autor, etc.) en ningún país del mundo".

El 'ChatGPT español'

Desde el principio este proyecto se ha ganado el apodo del 'ChatGPT español'. Aunque hay diferencias respecto al chatbot desarrollado por OpenAI, que se ha convertido en el referente a nivel mundial. "Fundamentalmente, el orden de magnitud de la inversión entre un proyecto privado y uno con impulso público. Tenemos que tener en cuenta que el valor fundamental de ALIA reside en el impulso al valor del castellano y las lenguas cooficiales en el entrenamiento del modelo", reiteran desde el Ministerio.

Josep M. Martorell, director asociado del BSC, ya aclaró a este periódico cuál sería la utilidad de este modelo: "Cuando nos imaginamos este tipo de sistemas tenemos que visualizar una pila de tres cosas. En el fondo están los corpus, que son volúmenes de datos, normalmente textuales, con los que se entrenan los algoritmos. Por encima están los grandes modelos de inteligencia artificial, que han surgido a raíz de ese entrenamiento. Y la última capa está compuesta por las aplicaciones y los servicios que llegan a los usuarios, que han sido desarrollados a partir de esos modelos".

Lo que ha hecho el Gobierno es crear esa capa intermedia, que luego se pondrá a disposición de las empresas para que cada una la moldee como quiera y pueda desarrollar multitud de herramientas, que serán las que podrán usar los ciudadanos en última instancia. Es decir, se trata de una base sobre la que empezar a construir. A día de hoy las compañías españolas que quieran hacer algo así tendrían que ponerse en contacto con las grandes multinacionales estadounidenses. Por eso España va a ganar "soberanía tecnológica".

"Esta primera versión que verá la luz ahora será un modelo fundacional que podrá usarse para adaptarlo a multitud de tareas específicas. En estas posteriores versiones instruidas el modelo puede usarse para infinidad de tareas, desde generación de resúmenes a traducción automática, pasando por cualquier tarea generativa de textos", relatan desde el Ministerio.

Como se ha mencionado, el Gobierno aseguró desde el principio que este proyecto sería muy transparente, algo nada habitual cuando hablamos de IA. Y tienen intención de cumplirlo, porque cuando se publique el primer modelo también lo hará toda la documentación relativa a él, así como la evaluación. En el horizonte también está la idea de construir el repositorio de datos para entrenamiento de modelos en castellano y las lenguas cooficiales más grande jamás creado, aunque de momento están enfocados en "el entrenamiento, per se, de los modelos".

Entrenado en todas lenguas oficiales

La apuesta de Moncloa era clara. Los modelos de lenguaje con inteligencia artificial requieren una gran cantidad de datos lingüísticos para ser entrenados, pero el inglés suele eclipsar al resto de lenguas (en algunos casos hasta el 90% del entrenamiento de realiza en ese idioma). Sin embargo, ALIA ha sido entrenado con más de un 20% de información en español, "el mayor porcentaje que existe en cualquiera de los modelos de lenguaje de gran tamaño que se han desarrollado en el ámbito privado o colaborativo", según el Ministerio.

El resto de información se ha extraído de otras lenguas: aproximadamente el 40% del inglés y lo demás, repartido entre 35 idiomas. Con el resto de lenguas cooficiales el reto ha sido mayor, porque sencillamente la cantidad de datos disponible es mucho menor en catalán, valencia, gallego y euskera. Pero se ha solventado, en la medida de lo posible, gracias a la participación de generadores de datos.

El proyecto ha contado especialmente con la colaboración del DFKi (German Research Center for Artificial Intelligence) y los centros que constituyen la Red ILENIA, destinada a impulsar nuestras lenguas en materia de IA. Una institución ha participado por cada lengua cooficial: el BSC en Cataluña; la Universidad de Alicante, a través del Centro de Inteligencia Digital (CENID), en la Comunidad Valenciana; la Universidad del País Vasco, a través del Centro Vasco de Tecnología de la Lengua (HiTZ); y la Universidad de Santiago de Compostela en Galicia.

Inversión

Desde el Ministerio deslizan que "es complicado dar un dato exacto sobre la inversión real en el desarrollo del de modelos ALIA, pues para estos trabajos estamos aprovechando los resultados de otros proyectos del Plan Nacional de Tecnologías del Lenguaje, como la generación y curado de algunos corpus para entrenarlo". Pero, por recapitular, hasta la fecha, en el marco de la Estrategia Nacional de Inteligencia Artificial, se han financiado las siguientes iniciativas:

  • ILENIA (7,5 millones: Red compuesta por el BSC y Universidades públicas de las CCAA que tienen lenguas cooficiales), por el desarrollo de corpus en lenguas cooficiales que serán utilizados para el desarrollo de los modelos multilingües.
  • LEIA (5 milllones, RAE), por el uso de instrumentos de verificación y corrección del español generado por los modelos generativos, además de uso de pequeños corpus que se han desarrollado en este proyecto.
  • TeresIA (1,4 millones, CSIC), va a generar terminologías en los sectores jurídico, salud e ingenierías que pueden ser aprovechados en el entrenamiento de los modelos de propósito específico sectoriales.
  • ODESIA (1,3 millones, ONTSI), está desarrollando un observatorio para medir la brecha de desarrollo tecnológico entre español e inglés, en colaboración con la UNED.

A estos proyectos se suman otros que están "en definición o en etapas más incipientes". Y en la Estrategia de IA se recogen las partidas destinadas a crear la infraestructura y los procesos para evaluación de modelos de lenguaje: desarrollo de corpus de elevada calidad (3,4 millones de euros); el propio desarrollo de modelos fundacionales en todas las lenguas oficiales (2,2M); la generación de modelos especializados o de propósito específico (3M) y la infraestructura y procesos para evaluación de modelos de lenguaje dotada con 1,5M.