Cuando hablamos de agentes conversacionales, estamos utilizando un término más o menos genérico en el cual, normalmente, estamos pensando en chatbots y su variante con voz, los ‘voicebots’.
Y no es mala aproximación práctica, pero en realidad, hay algo más.
Sobre agentes conversacionales
Sin pretender proporcionar una definición rigurosa ni académica, cuando hablamos de agentes conversacionales, estamos pensando en un tipo de entes artificiales que son capaces de mantener una conversación razonablemente natural con seres humanos.
Esta conversación puede ser llevada a cabo, y en los chatbots más tradicionales es así, mediante texto y algunos otros elementos propios de las interfaces de usuario más o menos tradicionales (menús, imágenes, ‘emojis’, etc), pero crecientemente se usa el puro lenguaje natural y, muy especialmente, la comunicación de ‘viva voz’.
Con frecuencia, este tipo de agentes son robots software, tal y como detallo en mi libro ‘Robots en la sombra‘ pero en algunos casos, como el de los altavoces inteligentes, tienen un soporte hardware más especializado.
Y como sustrato tecnológico de este tipo de soluciones, encontramos fuertes dosis de inteligencia artificial, muy especialmente del campo del procesamiento de lenguaje natural (NPL, ‘Natural Language Processing‘) y del reconocimiento de voz (ASR, ‘Automatic Speech Recognition‘).
Y, en ocasiones, las más avanzadas, también utilizan inteligencia artificial para la gestión de la conversación propiamente dicha o para detalles como el análisis de sentimiento.
Los sistemas dialógicos de Michael McTear
En realidad, esas habilidades conversacionales o dialógicas (capacidad de dialogar) se pueden, con la misma base tecnológica, embeber en una gran variedad de productos y soluciones finales lo que nos puede llevar a buscar algún tipo de identificación o clasificación de estos agentes conversacionales.
Leyendo el libro ‘Conversational AI. Dialogue systems, conversational agents and chatbots‘ de Michael McTear me encuentro, precisamente, con una suerte de clasificación de ese tipo. Bien es cierto que, el propio autor declara que no pretende una verdadera clasificación sino, más bien, y con una perspectiva de evolución histórica, identificar líneas y comunidades de trabajo que han evolucionado de manera bastante paralela e independiente. Además, estrictamente hablando, él no usa en este caso el término agente conversacional (‘conversational agent‘), sino lo que he traducido como sistema dialógico (‘dialogue system‘), pero creo que no es erróneo usar ambos términos como sinónimos.
Pues bien, en esa especie de clasificación, McTear identifica cinco categorías o, más bien, etapas o comunidades:
- Sistemas dialógicos hablados y basados en texto: que recoge los primeros trabajos, realizados principalmente en laboratorios de universidades y empresas, y que son sistemas dialógicos frecuentemente textuales (a veces puro texto sin más ‘adorno’) pero también incluyendo diálogos mediante voz. En este apartado habría realizaciones incluso desde los años sesenta y setenta.
- Interfaces de usuario de voz: Sistemas basados en voz y con una vocación mucho más comercial que los anteriores (que estaban más centrados en la investigación), con unas capacidades de conversación bastante limitadas y orientadas a soporte telefónico o tareas muy rutinarias.
- Chatbots: Desde el mítico ELIZA hasta la actualidad, unos agentes con capacidades conversacionales más avanzadas y, sobre todo, naturales.
- Agentes conversacionales personificados (ECA, ‘embodied conversational agents‘): Estaríamos en este caso hablando de unos agentes que yo suelo denominar avatares y que lo que añaden, más que capacidades lingüísticas, es una representación visual humana realista, mediante animación por ordenador, y que incluye elementos que apoyan la conversación como la expresión facial, gestos con las manos, etc que enriquecen la conversación con elementos no verbales.
- Robots sociales y agentes ubicados (‘situated agents‘): Se trata de robots físicos, normalmente de aspecto humanoide o zoomórfico, orientados a la interacción social con humanos y que, además de las capacidades de gestionar el lenguaje natural y la voz, añaden ahora posibilidades de reconocimiento del interlocutor y sus emociones y también del uso del lenguaje no verbal (gestos, movimiento, distancia) de una forma cada vez más similar a lo que haría un humano.
En conclusión
Ya se aprecia que, en realidad, lo que ofrece McTear no es exactamente una taxonomía de agentes conversacionales. Aún así, me ha resultado interesante en dos aspectos.
En primer lugar, me ha llamado la atención, y estoy plenamente de acuerdo, el que incluya ya a los robots sociales como un caso de agente conversacional.
En segundo, me resulta interesante constatar cómo, a las capacidades lingüísticas basadas en el lenguaje verbal con el soporte tecnológico del procesamiento del lenguaje natural y la voz, se une en el caso de los dos últimos grupos, avatares y robots sociales, el uso del lenguaje no verbal para lo cual se usa un cuerpo físico real, en el caso de los robots sociales y otro simulado o animado en el caso de los avatares. En cualquier caso, se intenta el enriquecimiento de la conversación mediante el lenguaje no verbal.
Por lo demás, creo que las capacidades conversacionales en todo tipo de agentes y dispositivos, se van a generalizar cada vez más, como parte de esa explosión robótica de la que ya he hablado con anterioridad y que quizá, quizá, en el futuro pueda ir perdiendo relevancia la idea del agente conversacional…porque casi todos los agentes lo serán.