La idea era que viera la luz el verano pasado. Pero ha sido este lunes cuando Pedro Sánchez ha anunciado el lanzamiento oficial del proyecto ALIA, conocido popularmente como el 'ChatGPT español'. Se trata de una de las iniciativas estrellas de la estrategia nacional de inteligencia artificial (IA) que se puso en marcha en mayo de 2024 y cuenta con una inversión de más de 1.500 millones de euros.

Sin embargo, en realidad ALIA no es exactamente un chatbot como el desarrollado por OpenAI. Se trata más bien de una familia de modelos de IA desarrollados en España y entrenados con un porcentaje mucho más alto de información en castellano y en el resto de lenguas cooficiales de lo habitual.

"Las diferencias fundamentales entre ALIA y ChatGPT es el orden de magnitud de la inversión entre un proyecto privado y uno con impulso público. Tenemos que tener en cuenta que el valor fundamental de ALIA reside en el impulso al valor del castellano y las lenguas cooficiales en el entrenamiento del modelo", explicaron a este periódico desde el Ministerio en su momento.

Lo último que se sabe es que el Ejecutivo tenía previsto lanzar dos modelos de inteligencia artificial, aunque estaban estudiando ampliar esa cifra en el futuro. El primero de esos modelos consta de siete mil millones de parámetros, y se ha entrenado con ocho trillones de tokens (que corresponden a cada una de las formas ortográficas que aparecen en un texto). En paralelo, hay otro modelo en el horno de 40 mil millones de parámetros, que entrenado con ocho trillones de tokens.

"Esta primera versión es un modelo fundacional que podrá usarse para adaptarlo a multitud de tareas específicas. En las posteriores versiones instruidas el modelo puede usarse para infinidad de tareas, desde generación de resúmenes a traducción automática, pasando por cualquier tarea generativa de textos", relataron desde el Ministerio.

Josep M. Martorell, director asociado del BSC, ya aclaró cuál sería la utilidad de este modelo: "Cuando nos imaginamos este tipo de sistemas tenemos que visualizar una pila de tres cosas. En el fondo están los corpus, que son volúmenes de datos, normalmente textuales, con los que se entrenan los algoritmos. Por encima están los grandes modelos de inteligencia artificial, que han surgido a raíz de ese entrenamiento. Y la última capa está compuesta por las aplicaciones y los servicios que llegan a los usuarios, que han sido desarrollados a partir de esos modelos".

Lo que ha hecho el Gobierno es crear esa capa intermedia, que luego se pondrá a disposición de las empresas para que cada una la moldee como quiera y pueda desarrollar multitud de herramientas, que serán las que podrán usar los ciudadanos en última instancia. Es decir, se trata de una base sobre la que empezar a construir. A día de hoy las compañías españolas que quieran hacer algo así tendrían que ponerse en contacto con las grandes multinacionales estadounidenses. Por eso España va a ganar "soberanía tecnológica".

En paralelo, Sánchez ha comunicado que movilizará 150 millones de euros para "potenciar la integración y uso de la IA en las empresas españolas, en línea con el compromiso adquirido en nuestra Estrategia de Inteligencia Artificial". De ellos, 20 millones se destinarán a 500 casos de uso en pequeñas y medianas empresas "cuyos resultados y experiencias serán accesibles a todo nuestro tejido de PYMES, y servirán para hacer de ellas un ecosistema más innovador y competitivo".

Limitaciones de ALIA

En la propia página web de ALIA, que también se ha lanzado hoy, se explica que el proyecto beneficiará a "todos", desde desarrolladores a empresas, pasando por Administración pública, investigadores y por supuesto la ciudadanía.

En esa web se puede leer la advertencia siguiente: "Los modelos de lenguaje están diseñados para ayudar en diversas tareas generando texto basado en los datos con los que fueron entrenados. Sin embargo, tienen limitaciones y posibles riesgos. Las respuestas de los modelos pueden no ser correctas o estar desactualizadas, por lo que es importante verificar siempre la información relevante en fuentes confiables. Además, los modelos pueden reproducir sesgos presentes en los datos de entrenamiento o generar contenido inapropiado; por ello, se deben usar con precaución".

Precisamente por eso, recomiendan no introducir información sensible, confidencial o personal. Asimismo, se recomienda también el uso ético y legal, evitando emplearlo para generar contenido dañino, ofensivo o ilegal.

"El modelo no tiene comprensión real ni juicio humano; su texto se basa en patrones estadísticos y no debe considerarse como un asesor experto. Al usar los modelos, el usuario acepta estas limitaciones y se responsabiliza del uso adecuado y de garantizar el cumplimiento de las regulaciones aplicables, incluidas las que rigen el uso de la inteligencia artificial", añaden en la página de ALIA.

El superordenador que lo hace posible

Sánchez lo ha hecho público durante el acto de clausura de ‘HispanIA 2040: cómo la inteligencia artificial mejorará nuestro futuro’, un evento que ha tenido lugar en la Fundación Ramón Areces de Madrid y que ha contado también con la presencia del ministro de Transformación Digital y de la Función Pública, Óscar López; la vicepresidenta tercera y ministra de Transición Ecológica y Reto Demográfico, Sara Aagesen; el ministro del Interior, Fernando Grande-Marlaska; el ministro de Transportes y Movilidad Sostenible, Óscar Puente; y el ministro de Agricultura, Pesca y Alimentación, Luis Planas.

Desde el Gobierno apuntaron que querían apostar por la "transparencia" de su modelo, y subrayaron que se crearían, a su vez, otros modelos de lenguaje más pequeños y específicos para diferentes sectores. Por lo pronto, la familia de modelos ALIA cuenta con la verificación de la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA) y está alineada con los estándares de transparencia que establece el Reglamento de IA.

En el lanzamiento de ALIA ha sido clave el papel del MareNostrum 5, un superordenador inaugurado en el Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC) en diciembre de 2023, que ha costado más de 200 millones de euros. Es el octavo más potente del mundo, el sexto más sostenible (y el primero de Europa), y ha multiplicado por 30 la potencia de cálculo que teníamos en España hasta la fecha. Por eso nos ha permitido abordar proyectos, como este, que hasta el momento eran "imposibles" de resolver.