Modelos fundacionales y la Inteligencia Artificial General

Ene82024

Los espectaculares avances técnicos, y los también espectaculares resultados, resultados obtenidos en los últimos meses por los modelos fundacionales, que forman parte de la inteligencia artificial generativa, pueden generar, y generan de hecho, confusión, en el sentido de que nos pueden llevar a pensar que estamos ya, en los albores de la inteligencia artificial general, a lo mejor del advenimiento de la singularidad.

Pero, realmente, creo que estamos ante una confusión, sólo una confusión.

Veamos.

Inteligencia artificial fuerte vs inteligencia artificial débil

Una distinción ya muy antigua en el seno de la disciplina de la inteligencia artificial es la que distingue entre una inteligencia artificial fuerte (o ancha) y una inteligencia artificial débil (o estrecha).

La primera se corresponde con una inteligencia artificial de propósito general, capaz de integrar todo tipo de capacidades cognitivas diversas, perceptuales, lingüísticas, de razonamiento, etc, para generar un ente artificial con unas capacidades inteligentes similares, al menos en cuanto amplitud, a las humanas. Como suelo decir claramente en las clases en que menciono esta distinción y el concepto de inteligencia artificial fuerte, esta inteligencia artificial no existe hoy en día y hay quien duda de que pueda existir alguna vez.

La segunda, la débil o estrecha, es la que se concentra en la resolución de problemas más o menos acotados: procesamiento de lenguaje, reconocimiento de voz, visión artificial, traducción, etc. Aunque hablemos de inteligencia artificial débil no debemos menospreciarla: puede ser enormemente sofisticada y avanzada…pero no cubre un espectro general de capacidades como ocurre en el caso de la inteligencia humana, sino aspectos más o menos concretos en los cuales, eso sí, puede igualar o incluso superar la capacidad humana. Y esta es la inteligencia artificial que tenemos hoy en día.

La inteligencia artificial general

No sé si algún autor propone alguna forma de distinción fina y puede que artificiosa, entre inteligencia artificial general (‘General Artificial Intelligence‘, GAI) e Inteligencia Artificial fuerte pero, personalmente, y más en el ámbito de este post, las trataré como lo mismo, como una forma de inteligencia artificial integrada que es capaz de acometer problemas de propósito general y variado, de forma parecida a como lo puede hacer un humano.

La inteligencia artificial generativa

¿Y la inteligencia artificial generativa?

Bueno, la Inteligencia Artificial Generativa (‘Generative Artificial Intelligence‘, GAI) es una forma de inteligencia artificial que se ha centrado, al menos en su concepción inicial, no tanto en resolver problemas (habitualmente de clasificación, regresión o segmentación) con el mayor grado de exactitud y acierto posibles, sino en generar, digamos, contenidos nuevos (textos, imágenes, vídeos, etc) donde más que la exactitud o acierto se busca la coherencia y credibilidad del contenido: que si creamos una cara humana, realmente parezca una cara humana, si creamos una noticia, realmente el texto de la noticia sea legible y coherente y parezca escrito por un humano, etc).

Modelos fundacionales

En general, los modelos generativos se centran en, durante la fase de entrenamiento, crear un modelo del mundo, es decir, una visión parametrizada y probabilística de cómo se comporta ‘esa parte del mundo’ que el modelo pretende de alguna forma resumir: por ejemplo, cómo se pueden parametrizar las imágenes que representan caras humanas.

Y dentro de estos modelos del mundo, uno de los más exitosos y con mayor atención mediática, son los modelos de lenguaje o grandes modelos de lenguaje (LLM, ‘Large Language Models‘) en que el ‘modelo del mundo’ representa un modelo de lenguaje humano en su morfología, sintaxis y, hasta cierto punto, semántica.

Sin embargo, y aunque el objetivo inicial de estos modelos de lenguaje era deducir un modelo del mundo del lenguaje humano, lo cierto es que han demostrado, demuestran y, seguramente, demostrarán más en el futuro, una cierta capacidad para ir más allá del puro lenguaje y asumir capacidades multimodales (mezclando texto con imagen, vídeo, etc) o incluso de entrar en temas casi insospechados como en el ámbito de la genética.

Por eso, en su excelente libro ‘Foundation Models for Natural Language Processing‘, Gerhard Paaß y Sven Giesselbach nos dicen, refiriéndose a los PLMs (‘Pre-trained Language Models‘) que

Due to the huge increase in performance, some research groups have suggested that large-scale PLMs should be called Foundation Models, as they constitute a foundational breakthrough technology that can potentially impact many types of applications.

que refleja esa capacidad de los grandes modelos de lenguaje para ir más allá de objetivo inicial y dar solución a múltiples problemas.

¿Significa eso que la Inteligencia Artificial generativa es ya una inteligencia artificial fuerte?

Sinceramente, creo que no, ni de lejos, al menos en sus estado actual.

Y sin embargo, existe confusión en las publicaciones, especialmente en las menos rigurosas o más generalistas, al respecto y nos hacen pensar que la inteligencia artificial generativa es una inteligencia artificial general.

Una confusión en acrónimos: IAG o GAI

Una parte de la confusión viene, aparte de por la prisa en publicar sin mucho análisis, por la coincidencia de nombres o, más bien, de acrónimos. Hablamos de GAI (‘General Artificial Intelligence’ o ‘Generative Artificial Intelligence’) en inglés y de IAG (‘Inteligencia Artificial General’ o ‘Inteligencia Artificial Generativa’) en castellano. Lamentablemente, el acrónimo coincide, pero es que las letras del abecedario son finitas.

En cualquier caso, coincide el acrónimo, pero no el concepto.

Quizá un paso hacia la generalidad

Y, sin embargo, algo que puede incrementar la confusión es, precisamente, que los grandes modelos de lenguaje, se han convertido en modelos fundacionales porque son capaces de ir algo más allá del mero tratamiento del lenguaje. Parece que se trata de una forma de inteligencia artificial no tan estrecha.

Hasta cierto punto, creo que es cierto que la inteligencia artificial generativa ha ido un poco más allá de su objetivo inicial y que da un paso en la senda de la transversalidad, de la generalidad si se quiere.

Pero, por un lado, se trata un paso muy cortito, no por el mérito técnico que tiene, que es mucho, o por el avance que supone, que también creo que es muy grande, sino porque aún estamos, creo, lejísimos de las capacidades humanas, especialmente en lo relativo a su generalidad e integración.

Por otro, mi intuición me dice que si alguna vez se consigue la generalidad, será con arquitecturas diferentes a las de los grandes modelos de lenguaje actuales.

Es solo una intuición, y perfectamente discutible, pero si se examinan en detalle y con visión técnica los modelos de lenguaje actuales, sus arquitecturas son, por así decirlo, ‘muy dirigidas’, muy estudiadas y diseñadas mediante elementos algorítmicos como la atención y la autoatención, para conseguir esos modelos de lenguaje. Mi intuición es que, para conseguir una inteligencia artificial general necesitamos, una de dos, o una arquitectura de, digamos, integración cognitiva, que permita integrar y coordinar capacidades cognitivas procedentes de la inteligencia artificial débil, o bien, y casi mucho mejor, una arquitectura muy generalista, con nuevos modelos de aprendizaje, que permita la ‘emergencia’ de la capacidad cognitiva sobre una base neuronal grande y altamente interconectada.

Insisto que el párrafo anterior es una mera intuición, ni de lejos una afirmación o un estado del arte.

Conclusiones

A pesar de su espectacularidad, del gran avance que supone, y de que, hasta cierto punto, es un avance en la transversalidad de las capacidades cognitivas de la iteligencia artificial, los modelos fundacionales y la inteligencian artificial generativa no son, ni de lejos, o no alcanzan ni de lejos a una inteligencia artificial general y por ello, pese a la susodicha espectacularidad y a la coincidencia de acrónimos, no deberíamos confundirlas.