Tal y como prometió, Elon Musk presentó este lunes su nuevo modelo de inteligencia artificial (IA): Grok 3. El evento, como suele ser habitual con cada nuevo anuncio que hace el magnate en cualquiera de sus -múltiples- compañías, levantó mucha expectación. Aunque en este caso había un punto extra de interés, porque Musk había prometido que Grok 3 es "la IA más inteligente de la Tierra".

El lanzamiento de Grok 3 llega poco después de que el chatbot chino DeepSeek cause un terremoto en la bolsa estadounidenses, poniendo en cuestión el modelo de negocio que la IA estaba siguiendo a nivel mundial y, en paralelo, también la posición de ChatGPT como el modelo de referencia. En ese contexto, estaba por ver hasta qué punto Grok 3 era un competidor a la altura.

Precisamente por eso, El Independiente ha charlado con Ramón López de Mántaras, uno de los pioneros de la IA en España y Europa, que ha estado testando el nuevo modelo de Musk. De Mántaras lleva investigando en IA desde 1975, y es profesor de investigación emérito del CSIC en el Instituto de Investigación en Inteligencia Artificial, del cual fue fundador y director. Además, es profesor visitante distinguido en la Universidad de Tecnología de Sídney y en la Universidad del Oeste de Sídney, y catedrático de la Universidad Pierre et Marie Curie de París. Una trayectoria que le ha valido para ser nombrado miembro de honor de la Asociación Europea de Inteligencia Artificial.

"Con el primer prompt que le he hecho a Grok 3 ya lo he pillado. Parecía que empezaba bien y respondería correctamente, pero no ha sido así", relata De Mántaras, que explica que ha puesto a prueba al modelo de manera sencilla, haciéndole la siguiente pregunta: "Si hoy es 29 de febrero, ¿en qué día estaremos exactamente dentro de un año?". La respuesta de Grok 3 ha sido la siguiente:

"Si hoy es 29 de febrero, significa que el año actual es bisiesto (por ejemplo, 2024). Exactamente dentro de un año será el 28 de febrero del año siguiente, a menos que el año siguiente también sea bisiesto.

  • Si el año siguiente NO es bisiesto (por ejemplo, 2025), febrero tendrá sólo 28 días, por lo que un año a partir del 29 de febrero será el 28 de febrero.
  • Si el año siguiente ES bisiesto (por ejemplo, 2028), un año a partir del 29 de febrero volverá a ser 29 de febrero.

Como los años bisiestos ocurren cada 4 años, si hoy es 29 de febrero de 2024, entonces dentro de un año será 28 de febrero de 2025 (porque 2025 no es bisiesto)".

"La respuesta correcta es que si hoy es 29 de febrero, dentro de un año será 1 de marzo, por supuesto", ilustra de De Mantaràs. "Y eso por no hablar de que en la respuesta contempla la posibilidad de que haya dos dos años bisiestos seguidos", añade.

Para él, esa respuesta demuestra las grandes limitaciones que presenta Grok3: "No es que tenga fallos aislados, el problema es de fondo. No hay comprensión real del lenguaje ni razonamiento. No es inteligencia artificial, son habilidades sin comprensión. Y eso que según el fantasma del Elon Musk, es la IA más inteligente del planeta. El problema de los LLM es que no tienen un modelo del mundo porque no pueden aprenderlo sin interactuar con él. Son loros estocásticos. Y cualquiera que sepa en qué principios se basan los puede 'pillar' fácilmente".

Con todo, y en defensa de Musk, su modelo no es el único en tener esta clase de modelos. "Grok 3 tiene más o menos los mismos problemas que ChatGPT o DeepSeek. Lo que sucede es que cuando otros usuarios ya les han hecho la misma pregunta suficientes veces, y el modelo ha sido actualizado, puede responder bien a pesar de no entender o no razonar. Cuando en el conjunto de entrenamiento ya habían preguntas (con sus respuestas, claro) iguales o muy similares es cuando suelen responder bien)", desliza.

En general, según explica el investigador, esta clase de modelos suelen presentar problemas con cuestiones de este tipo, porque para responderlas se requieren capacidades de razonamiento temporal y espacial, y como no sean capaces de razones, "les 'pillas'". Precisamente por eso, los pone a prueba lanzándoles siempre preguntas parecidas a esta.

Pero la crítica de De Mantaràs va más allá del rendimiento de Grok 3: "En mi opinión estos modelos de lenguaje comportan un escandaloso gasto energético que no es en absoluto sostenible. Grok 3 ha requerido usar doscientas mil GPUs funcionando sin parar durante muchos meses, consumiendo teravatios de electricidad para nada realmente útil. La relación coste/beneficio es inaceptable. Costos astronómicos para escasísimos beneficios".

"Todo esto es para atraer inversiones multimillonarias vendiendo la falsa promesa a los inversores de que la IA general superior a la humana está a la vuelta de la esquina", continúa. "Pero estos modelos de lenguaje no sólo no nos acercan a una hipotética IA general sino que, por el contrario, nos alejan. Me sorprende que en EEUU los grandes inversores tecnológicos sean tan estúpidos", concluye.

Las promesas de Elon Musk

Grok 3, por recordar, es el nombre tanto del modelo de IA como del chatbot que los usuarios pueden utilizar a través de su cuenta de X (lo que anteriormente era Twitter). Además, la marca engloba a varios modelos bajo un único paraguas, porque al estándar (Grok 3) se le añade el Grok 3 Mini, que ofrece respuestas más rápidas pero menos precisas. De momento, eso sí, van a ser de pago.

Durante la presentación que tuvo lugar este lunes el equipo de xAI, con Musk a la cabeza, detalló que Grok 3 se apoya en el buscador Deep Search, una nueva herramienta que ya está disponible en las tiendas de aplicaciones, cuya función es recopilar información de Internet y de la plataforma X para ofrecer un resumen exhaustivo de la consulta realizada.

En paralelo, los portavoces de la compañía aseguraron que Grok 3 supera a GPT-4o de OpenAI en los tests AIME (USA Math Olympiad), que evalúan su rendimiento en matemáticas, y GPQA, que miden cómo responde en problemas de física, biología y química de nivel de doctorado.

El modelo es una versión mejorada del Grok 2, que ya estaba disponible, pero incluye, según se explicó, mejoras en el chat, la generación de imágenes y el razonamiento, y añade la capacidad de reflexionar sobre los errores que comete, con el objetivo de lograr una coherencia lógica. Musk apuntó que el Grok 3 tiene una capacidad 15 veces mayor que su predecesor.

Además, otra de las grandes diferencias de Grok es que se desarrolló para tener "sentido del humor", lo que permite, entre otras cosas, ofrecer respuestas sin filtros, porque casi no tiene límites éticos. Le puedes pedir prácticamente cualquier cosa.