Read in English: How to design the personality of your voice interface.
La personalidad dentro de Alexa o Google Assistant: Qué es importante en el diseño y qué no.
En 2017 publiqué dos artículos sobre diseño de chatbots en los que hablaba de la importancia de la personalidad en los asistentes. Uno era una recopilación de tareas de diseño UX que sirven en diseño de asistentes y el otro es mi framework de diseño de chatbots.
Muchas de las ideas que tenía entonces se basaban en lo que había extraído del libro Designing for emotion y se acababan traduciendo en la creación de una ficha de persona, similar a la que podemos realizar de los usuarios, definiendo las características de nuestro asistente.
Desde entonces, han surgido nuevas aproximaciones y trabajos muy interesantes como el de Sngular y su Voice System Persona Canvas, que propone una descripción pormenorizada de las diferentes características de un asistente según la situación que queramos.
Sin embargo, mi visión ha evolucionado en estos últimos 3 años y actualmente veo la personalidad de los asistentes de un modo diferente. Si estamos creando una Skill de Alexa o una action para Google Assistant puede ser que no debamos prestar demasiada atención a ciertos elementos relacionados con la personalidad.
En este post, establezco la diferencia entre los conceptos de “avatar” y “comportamiento”, como partes que definen una personalidad, y cuento cuándo y cómo se deben trabajar cada uno de ellos.
Definición del avatar, cuándo es necesario y cómo crearlo
¿Qué es el avatar de una interfaz de voz como las Skills de Alexa o las Action de Google Assistant?
El avatar es la parte superficial de la personalidad y nos ayuda a identificar y diferenciar rápidamente a un ente de otro.
Entendemos por avatar de un asistente de voz o VUI, como la identidad virtual del mismo. Esta identidad se suele traducir en un nombre, una voz y una imagen, y puede extender a detalles más concretos, como la edad, el sexo, la profesión o incluso los hobbies, gustos y demás características humanoides.
¿Cuándo es necesario un avatar en una interfaz de voz?
El nivel de detalle que necesitamos para un avatar, e incluso la necesidad de su existencia, puede variar en importancia según el caso de uso que estés trabajando y según la plataforma en la que vaya a ser publicado. Para ciertos casos, como veremos a continuación, puede ser incluso contraindicado definir ningún tipo de avatar.
Por el lado de la plataforma, nos vamos a encontrar con limitaciones que estas tienen o imponen y que pueden obligarnos a prescindir del avatar. Por ejemplo, si estamos trabajando para una Skill dentro de Alexa, por defecto nuestra interacción utilizará la misma voz de Alexa. Usar un nombre de asistente diferente va a producir una inconsistencia que los usuarios no van a poder entender, y puede ser incluso motivo de no certificación por parte de Amazon.
Aquí podéis ver un divertido video en inglés titulado Cuando tu Echo Dot sufre un desorden de personalidad múltiple.
En el caso de Alexa, podemos lidiar con esa limitación utilizando una voz diferente y dejando claro al usuario que la interacción se va a realizar con un personaje concreto y con un rol limitado. Dependiendo de la plataforma y sus políticas, tendremos más o menos libertad en cuanto a la elección de voces y creación de personajes.
Sobre el caso de uso, u objetivo de nuestra aplicación, y cómo este afecta a la definición de nuestro avatar, hay dos parámetros que debemos tener en cuenta: frecuencia de uso y naturaleza transaccional o conversacional de la interacción.
En relación con la frecuencia de uso, bajas frecuencias de uso van a requerir un menor detalle en cuanto a la definición de un avatar en la VUI. Por ejemplo, si estamos creando un producto de voz, cuyo uso esperado es esporádico (¿una vez al mes?), elaborar un documento muy extenso detallando el avatar puede ser totalmente innecesario.
En productos de baja frecuencia, no vamos a tener la capacidad de crear una relación de empatía con el usuario y las expectativas de éste no van a requerir que dediquemos mucho esfuerzo en crear toda una historia para nuestro asistente, pudiendo ser incluso molesto en el caso de que queramos forzar los mensajes relativos a su background.
Sobre la naturaleza transaccional frente a conversacional, debemos distinguir aquellas interacciones en las que un usuario solo busca ejecutar una acción y obtener un resultado directo (transaccional) de las que buscan una mayor participación y libertad entre el usuario y la interacción (conversacional). En las acciones puramente transaccionales (ejemplo: “Alexa enciende la luz”), el usuario demanda que se ejecute una acción y la inclusión de referencias a cierta personalidad pueden resultar bastantes molestas como en la siguiente exageración:
Usuario: Alexa enciende la luz
Alexa: Gracias por usar los servicios de MiLulu para encender la luz. Tu luz está ahora encendida. Estoy deseando que la apagues para volverte a saludar.
Teniendo en cuenta frecuencia y naturaleza, podemos utilizar el cuadro orientativo que incluyo más abajo sobre cuándo trabajar el avatar en aquellas plataformas que lo permitan.
Como vemos en la tabla, puede haber casos transaccionales de alto uso donde podamos hacer algún tipo de referencia anecdótica al avatar buscando generar imagen de marca. Aún en ese caso, deberían ser siempre breves y sin interrumpir la actividad principal del usuario. Del mismo modo, para casos conversacionales de baja frecuencia, podemos tener unos detalles superficiales mínimos definidos y que se pueden mencionar en momentos puntuales.
¿Cómo crear un avatar para tu interfaz de voz?
Para la creación de avatares, podéis hacer uso de una plantilla de user persona, como la que os adjunto más abajo, o podéis hacer uso de herramientas online como Xtensio.
El objetivo del ejercicio es crear un personaje que encaje con los usuarios potenciales de nuestra aplicación de manera que consigamos crear una relación más fluida y acorde con esos usuarios y el objetivo que estos tienen con nuestra interfaz.
Por ejemplo, si estamos trabajando en un asistente médico, podemos crear un personaje inspirado en un médico de familia “de toda la vida”, hombre o mujer, de unos 45-50 años, con familia y muy entrañable.
Comportamiento del asistente de voz, cuándo es necesario y cómo crearlo
¿En qué consiste el comportamiento de una interfaz de voz?
Más allá de esas características definidas en nuestra identidad digital o avatar, debemos diseñar la forma de actuar y los rasgos de personalidad de un asistente frente a las diferentes situaciones que se pueden dar en una conversación. Esa definición de comportamiento consiste en prever y decidir cómo queremos que nuestra interfaz se comporte en cada caso y los rasgos de personalidad que van a marcar su actuación.
Debemos, por ejemplo, especificar cómo se va a comportar nuestro asistente médico, cuando se produce un error de comprensión.
¿Cuándo es necesario definir el comportamiento de un asistente de voz?
Aquí la respuesta es diferente y mucho más corta con respecto al caso del avatar: SIEMPRE.
Independientemente de que estemos trabajando un caso de uso conversacional o transaccional, con mucha o poca frecuencia de uso, debemos detallar, cómo se va a comportar el asistente en cada caso. Incluso si ese detalle implica explicar que nuestro asistente no va a dar ningún tipo de respuesta, debemos saber por qué lo hacemos y en qué casos.
¿Cómo diseñamos el comportamiento de un asistente de voz?
Ya hay otras aproximaciones sobre cómo hacerlo, algunas basadas en los 12 arquetipos de Jung (podéis leer sobre ello en este informe de Telefónica) o el propio de Sngular que permite crear mapas de comportamiento para cada situación que queramos.
Sin embargo, no estoy del todo convencido con el resultado y es por eso que propongo un método diferente y basado en principios de actuación y un enfoque puramente pragmático.
1. Define los principios por los cuales se va a regir tu interacción
Empieza con una lista de principios de comportamiento que quieres que tu asistente tenga. Para crear esa lista, básate en lo que conoces de tus usuarios y lo que tu investigación indica que los usuarios esperan según el caso de uso que estás trabajando.
Estos principios son líneas maestras de actuación y que van a regir todos los comportamientos independientemente de la situación.
Siguiendo con el ejemplo de asistente médico podríamos definir los siguientes principios:
- Es un experto en su tema, pero siempre habla de una manera comprensible al usuario.
- El asistente tiene que ser útil siempre.
- Tiene que ser empático con los sentimientos de los pacientes.
- Solo está para temas importantes.
2. Desarrolla cada principio en comportamientos y rasgos concretos de tu asistente de voz.
La idea es definir los diferentes comportamientos que van a regir tu interfaz de voz, bajo el paraguas siempre de los principios fundamentales. En este punto es cuando decidimos, por ejemplo, si el asistente hará chistes, cuándo y por qué, o si utilizará frases más cortas o largas según la situación.
En nuestro ejemplo médico, podemos definir bajo el primer principio fundamental (“El asistente es un experto en su tema, pero siempre habla de una manera comprensible para el paciente”), los siguientes comportamientos:
- Utiliza mensajes cortos. Solo si el paciente pide más información se puede plantear respuestas más largas.
- No utiliza jerga. Nada de términos médicos que el paciente no entienda.
- Externaliza la respuesta si así es más comprensible. Si la respuesta la puede dar mejor un humano u otro dispositivo (web, video, etc.) remite a la fuente más útil.
3. Pon ejemplos de conversaciones posibles entre un usuario y tu asistente de voz.
Para cada comportamiento del punto 2, debemos crear ejemplos tanto correctos como incorrectos de cómo se comporta el asistente. De esta manera, podemos trabajar con mensajes concretos que pueden acabar formando parte de nuestro diseño. Además, el resultado es más sencillo de entender por cualquier persona que se incorpore al proyecto y puede expandirse fácilmente según el trabajo evolucione.
En el caso del asistente médico, podríamos crear una tabla para cada principio con sus diferentes comportamientos. La fila relativa a la jerga podría ser similar a la siguiente:
DON’T | DO |
Usuario – Me duele la cabeza
Asistente – Entiendo, una cefalea es toda sensación dolorosa localizada en la bóveda craneal, desde la región frontal hasta la occipital, aunque en numerosas ocasiones, también se aplica a dolores de localización cervical y facial. ¿Qué parte de la bóveda craneal te duele? |
Usuario – Me duele la cabeza
Asistente – Entiendo, los dolores de cabeza son muy habituales y pueden ser por muchos motivos, ¿Qué parte de la cabeza te duele? |
En el siguiente enlace puedes acceder a una plantilla que he creado en Google Docs, para definir la personalidad de tu asistente de voz y que he llamado Behavior Principles for VUI Template.
Conclusiones
La personalidad es un factor importante en el diseño y desarrollo de un asistente de voz. Resulta fundamental en cuanto al comportamiento, que debemos definir en sus diferentes casuísticas y opcional en cuanto a la parte de avatar.
Os invito a utilizar esta aproximación basada en principios de comportamiento y a compartirme vuestro feedback.
Si quieres leer más aquí tienes todos mis artículos sobre interfaces de voz.