Cómo clasificar y diferenciar los distintos tipos de interfaces conversacionales

Taxonomía de las interfaces conversacionales desde el punto de vista de la interacción

En el mundo de las interfaces conversacionales, los asistentes de voz, chatbots y demás, existe mucho debate sobre cuáles son los términos adecuados que debemos utilizar a la hora de designarlos.

Sin embargo, establecer categorías que nos ayuden a diferenciar los diferentes casos, sí que parece un problema bastante más asumible. Para la realización del curso de Introducción al diseño de interfaces conversacionales, documenté la categorización o taxonomía que utilizo en mi caso, y que me resulta de gran ayuda a la hora de explicar los tipos de asistentes que nos podemos encontrar.

No es la primera vez que se aborda este tema, y hay varios trabajos muy interesantes como los papers de investigación de Towards a Taxonomy of Platforms for Conversational Agent Design y The Anatomy of User Experience with Conversational Agents: A Taxonomy and Propositions of Service Clues. Mi aportación al tema se basa en centrar la categorización en los elementos que tienen un impacto en la relación persona – agente. Además incluyo algunos ejemplos existentes para facilitar la comprensión de cada uno de los diferentes tipos.
Las diferentes categorías que utilizo son:

  1. Libertad conversacional
  2. Forma de interacción
  3. Dominio de conocimiento
  4. Propiedad de la plataforma
  5. Iniciativa
  6. Objetivo
  7. Profundidad de la conversación

Libertad conversacional

La primera de las categorías que utilizo tiene que ver con la libertad de los hablantes a la hora de dirigirse a la interfaz conversacional. En esta categoría, nos encontramos principalmente con dos extremos:

  • Interacciones que utilizan procesamiento del lenguaje natural. Este tipo de asistentes permiten el mayor grado de libertad para el público, que pueden comunicarse utilizando las palabras y expresiones que quieran. La interfaz es un espacio abierto en el que las personas pueden hablar y expresarse y la tecnología es la encargada de interpretar el contenido del mensaje y responder de manera coherente. Los ejemplos más habituales serían los asistentes de Alexa, Google o Siri.
  • Interacciones basadas en botones o comandos. En el otro lado, nos encontramos con interacciones que solo permiten la comunicación mediante órdenes muy concretas. Un ejemplo fácilmente reconocible son los antiguos sistemas de telefonía que obligan a quien realiza la llamada a especificar el número de opción que desean (“Si quiere hablar con recepción diga 1”).

dos experiencias conversacionales de texto, una mostrando una interacción libre y la otra por botones

Forma de interacción

En esta categoría hablamos del soporte a través del cual interactuamos con el asistente y el método de interacción que podemos utilizar para relacionarnos con él. A nivel comercial los más habituales son:

  • Texto: Las personas utilizan una interfaz gráfica (por ejemplo en la pantalla del móvil o del ordenador), dónde pueden utilizar palabras escritas, para comunicarse con el asistente. Un buen ejemplo serían los asistentes que solemos encontrarnos en plataformas como WhatsApp o en las páginas web de muchas empresas. Los asistentes de texto suelen conocerse como chatbots.
  • Voz: En este caso deja de haber un soporte gráfico y la interacción se produce mediante mensajes sonoros: Las personas hablan a un micrófono que recoge el sonido, el asistente genera una respuesta y la emite a través de un altavoz. El primer asistente de este tipo que se hizo famoso sería Siri, aunque también entrarían en este grupo los asistentes telefónicos con los que llevamos años lidiando (también conocidos como IVR). En algunos sitios encontrarás este tipo de asistente con el nombre de voice bot.
  • Multimodal: Es una combinación de las dos anteriores, pudiéndose iniciar la interacción de manera táctil o verbal a un dispositivo que puede escuchar lo que decimos y que puede darnos la respuesta tanto de manera sonora, como a través de elementos visuales en una pantalla. Los dispositivos con pantalla de Alexa son un buen ejemplo de este tipo de interacción.

tres tipos de interacción: chatbot, voz y multimodal

Dominio de conocimiento

El dominio de conocimiento tiene que ver con las cosas que el asistente sabe y sobre las cuáles puede responder. Aquí nos encontramos con dos tipos principales:

  • Asistentes especialistas: Tienen un dominio de conocimiento muy concreto y solo responden a casos de uso concretos dentro de ese dominio. Por ejemplo, la startup española Tucuvi, utiliza una asistente experto en salud y da soporte a diferentes casos de uso dentro de este mundo.
  • Asistentes generalistas: Dan respuesta a todo tipo de preguntas y atienden todo tipo de casos de usos. Obviamente siempre tienen agujeros de conocimiento, pero continúan desarrollando funcionalidades para ellos con la idea de ser cada día más completos. Las famosos Alexa, Siri, o Googles Assistant entrarían dentro de este grupo de asistentes generalistas.

Dos altavoces inteligentes cada uno con un bocadillo para diferenciar el generalista del especialista

Propiedad de la plataforma

Esta categoría está relacionada con el sitio en el que reside el asistente, con cómo podemos acceder al mismo y el control que puede tener sobre las capacidades de la plataforma. Nos encontramos dos tipos:

  • Los asistentes o interacciones nativos forman parte del core de la plataforma y potencialmente tienen acceso a todas sus capacidades. Un ejemplo de interacción nativa son las alarmas y recordatorios de cualquier asistente generalista. Para su desarrollo, un equipo interno diseña y programa la función que forma parte del producto desde su puesta en el mercado.
  • Los asistentes externos son creaciones de equipos ajenos a la plataforma, la cual cede cierto espacio a estas terceras empresas, con el objetivo de ampliar sus funcionalidades. Las Skills de Alexa son el ejemplo más claro, gracias a las cuales cualquiera puede crear su propio producto conversacional, publicarlo en el marketplace de Amazon y tenerlo a disponibilidad de todo el público de Alexa.

dos altavoces inteligentes, uno mostrando una experiencia nativa y el otro una desarrollado por un tercero

Iniciativa

Cuando las personas conversamos solemos alternar el peso de la conversación entre los diferentes hablantes. A veces somos los que dirigimos la charla, mientras que otras veces tenemos un rol más pasivo, respondiendo a los que se nos pregunta. En las interfaces conversacionales esos roles suelen estás bastante más marcados e incluso se mantienen en toda la interacción, pudiéndose encontrarnos dos tipos de asistentes o interacciones:

  • Reactivas: El agente espera a que haya algún tipo de solicitud por parte de la persona que lo utiliza para a continuación emitir una respuesta que aborde la demanda hecha. Las funcionalidades nativas de Alexa, Siri o Google suelen ser reactivas, manteniéndose a la espera hasta que les preguntamos por la hora, la fecha, o les pedimos que pongan nuestro podcast favorito.
  • Proactivas: En otro lado nos encontramos a las interacciones reactivas, que inician la conversación e intentan dirigirla hasta conseguir el objetivo que persiguen. Las Skill de Alexa suelen ser más de tipo productivo, empezando con un mensaje de bienvenida que deja claras las opciones y los próximos pasos que pueden dar las personas.

dos sets de bocadillos conversacionales, uno proactivo y el otro reactivo

Objetivo

En esta categoría se analizan los diferentes objetivos que pueden tener las personas cuando se relacionan con un asistente. En realidad suele haber dos objetivos principales:

  • Transaccional: Las personas buscan que el asistente ejecute una acción clara o les informe de un hecho concreto. Acciones como preguntar la hora, pedir una canción, o añadir elementos a la lista de la compra tienen un objetivo claramente transaccional. La mayoría de experiencias conversacionales que nos encontramos en el mercado tienen ese objetivo transaccional.
  • Relacional: El objetivo de la conversación parece ligeramente más difuso ya que no persiguen esa acción concreta, sino que la conversación es el objetivo en si mismo. La antiquísima experiencia de Eliza o las más moderna replika.ai o GPT3 son buenos ejemplos de este tipo de experiencias relacionales.

dos altavoces inteligente uno mostrando una experiencia transaccional y el otro relacional

Profundidad de la conversación

Esta categoría en ocasiones es una limitación de la plataforma, pero en otras es una decisión de diseño que intenta reducir el número de posibilidades en la interacción. Básicamente habla del número de turnos que puede haber entre el asistente y una persona hasta conseguir el objetivo, y que mantengan la coherencia y el contexto de la conversación. Así nos encontramos con dos tipos mayoritarios:

  • Turno único: Son interacciones conversacionales que se componen de una pregunta y una respuesta sin ningún tipo de continuación. Son interacciones sencillas que buscan resolver la necesidad lo más rápido posible. Preguntar la hora a cualquier asistente generalista suele ser un caso habitual de experiencia de turno único.
  • Multi turno: En este caso, asistente y persona intercambian turnos hasta completar la información o los pasos necesarios para conseguir el objetivo conversacional. Tareas complejas, como pueda ser pedir una pizza o reservar un billete de avión, son ejemplos habituales de experiencia multi turno.

dos set de bocadillos conversacionales, uno mostrando una experiencia de turno único y el otro una experiencia multi turno

Si quieres saber más sobre asistentes o su diseño, échale un ojo al curso en Domestika Introducción al diseño Conversacional.

Tabla resumen de las diferentes formas de clasificación

 

Jesús

Soy Jesús Martín, y fui el diseñador de Alexa en Francia, Italia y España tras su lanzamiento en esos países. Me enamoré de la tecnología y de sus recovecos hace ya varios años y lo que voy descubriendo lo cuento en esta página.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada.