Patrones de diseño en interfaces de voz

Read in English Design patterns in voice interfaces

En el mundo de las interfaces gráficas los diseñadores hablan constantemente de la existencia y el uso de patrones de interacción, a los cuales recurren para resolver las situaciones a las que se enfrentan. Su uso permite encontrar soluciones contrastadas y a las que los usuarios están acostumbrados, gracias a los años de experiencia que tienen en el manejo de este tipo de interfaces.

La aparición de dispositivos de interacción por voz como una forma “novedosa” de interacción hace a muchos preguntarse si existe un artefacto similar en el mundo de las VUI (voice user interface). ¿Existen patrones de diseño en Alexa, Google, Siri, o cualquier otra interfaz de voz?

La respuesta rápida es SÍ. En la respuesta lenta os cuento qué son los patrones de diseño en interfaces de voz, qué tipos podemos encontrar en interfaces de voz, de dónde salen y algunos ejemplos.

Empecemos por el principio.

¿Qué es un patrón en diseño?

Un patrón según la RAE es un “modelo que sirve de muestra para sacar otra cosa igual”. Los ejemplos en nuestro día a día son incontables y van desde el azulejo que se repite en nuestra cocina, generando algún tipo de dibujo infinito, a los patrones de interfaces gráficas que comentaba antes. En páginas como ui-patterns tenemos documentados todo tipo de patrones que explican, por ejemplo, cuándo y cómo utilizar menús desplegables, listas, o cualquier otro elemento de una UI.

Extendiendo la definición de la RAE, un patrón es una estructura que podemos repetir y obtener resultados semejantes en cada repetición. Esa previsibilidad del resultado ayuda al creador a no “reinventar la rueda” cada vez y al usuario a saber cómo se tiene que enfrentar a una interfaz para hacer lo que quiera en ella.

imagen de un patrón de tejas

Photo by Andrew Ridley on Unsplash

¿De dónde salen los patrones en GUI?

Los patrones en GUI son convenciones a las que se han llegado con la experiencia y el paso del tiempo. Como la interfaz gráfica no es algo que tenga una representación directa en la naturaleza, todo el proceso de interacción y consumo es una construcción humana que ha sido creada de manera artificial. 

A pesar de ello, esos patrones no son invenciones puras, si no que utilizan el funcionamiento de nuestro cerebro y su forma de entender el mundo para conseguir que el usuario realice la acción de la manera más sencilla posible. En realidad, de alguna manera, hackean el cerebro y se aprovechan de cómo funciona para conseguir el objetivo que queramos.

De esta manera tenemos estudios que explican cómo el cerebro interpreta las formas, como los de la Gestalt, que luego se desarrollan en otro tipo de leyes como las de Hick, Fitts o Zeigarnik, y un largo etcétera, que nos permiten crear soluciones en nuestras pantallas que tengan un resultado predecible.

En la evolución de esta construcción artificial aparecen y desaparecen patrones que utilizamos en las interfaces gráficas. Esos cambios se dan por evoluciones tecnológica, por tendencias sociales, o por descubrimientos que ponen en evidencia los resultados positivos o negativos de un patrón. En ese sentido, hace años publiqué un artículo sobre lo malo del uso del menú hamburguesa en interfaces gráficas, sobre el que el tiempo me va dando la razón.

ejemplos de las leyes de la percepción de la Gestalt

Imágen original: Verywell / JR Bee

¿De dónde salen los patrones en las interfaces de voz (VUI)?

De manera similar, en el mundo de las interfaces de voz, debemos conocer el funcionamiento del cerebro para crear mensajes e interacciones optimizadas para el objetivo que tengamos.

A diferencia de las interfaces gráficas, el mundo conversacional y sus códigos no son una construcción tecnológica actual, sino que existen desde mucho antes que la capacidad actual de reproducirlos. Eso hace que los patrones de interacción sean copias o adaptaciones de los mecanismos que existen en el mundo de la comunicación oral.

Nuestra labor desde el diseño consiste en analizar los diferentes elementos que participan en las interfaces de voz, entender cómo funcionan en el mundo ajeno a la tecnología y replicarlos en nuestra interacción.

¿Qué patrones de diseño nos encontramos en las interfaces de voz (VUI)?

Por las características del medio, me he encontrado con tres tipos de patrones de interacción en Alexa, Google y demás VUIs: 

  • Narrativos o macro patrones.
  • Patrones Lingüísticos o micro
  • Sonoros o auditivos.

Para cada uno de estos grupos vamos a poder ver diferentes estructuras que podemos reutilizar en nuestro favor.

¿Cómo son los patrones narrativos en una interfaz de voz (VUI)?

Los patrones de interacción macro o narrativos tienen que ver con la estructura completa de la experiencia conversacional

Gracias a este tipo de patrones, sabemos que toda interacción por voz, independientemente del caso de uso, tiene un inicio de la interacción, donde hay un saludo inicial, una explicación del alcance, un desarrollo de la conversación y una despedida final. 

Si ahondamos en esos patrones narrativos nos encontramos que hay ciertos casos de usos bastante definidos y con estructuras muy claras. Así por ejemplo tenemos el formato de trivial en Alexa o Google Assistant, cuyos elementos son comunes prácticamente al 100% en todos los juegos de este tipo en cualquier plataforma y país. En este caso el patrón narrativo de un Trivial o quiz sería como sigue:

  • Presentación y delimitación del área de conocimiento.
    “Gracias por volver al GeoTivial, el juego con preguntas de geografía.”
  • Explicación de las reglas.
    “Te haré preguntas y cada vez que aciertes ganarás un punto”
  • Configuración del juego (opcional): número de jugadores, número de rondas, duración…
    “¿Cuantos jugadores sois?”
  • Rondas del juego: La interfaz pregunta y el usuario responde.
    “Primera pregunta…”
  • Resultado final.
    “Has hecho X puntos / X respuestas acertadas”
  • Ranking (opcional) frente a histórico personal o contra otros jugadores.
    “¡5 puntos más que la semana pasada!”
  • Posibilidad de volver a jugar (opcional).
    “¿Quieres volver a jugar?”
  • Despedida.
    “¡Vuelve mañana para seguir jugando!”

Además de los juegos tipo Trivial, podemos encontrar patrones en otros formatos como pueden ser: aplicaciones de cocina, historias interactivas, consulta de programas de televisión, programas de entrenamiento, etc.

Estos patrones no han nacido con las interfaces de voz, sino que en muchos casos son heredados de programas de televisión, aplicaciones móviles o incluso de la historia de la narrativa.

gráfica de planteamiento, nudo, clímax y desenlace

¿Qué patrones lingüísticos nos encontramos en una interfaz de voz (VUI)?

Los micro patrones, relacionados con la lingüística, se corresponden con los elementos conversacionales concretos que utilizamos durante la interacción. Tienen que ver con tipos de preguntas, ubicación de las mismas, organización de las palabras dentro de un mensaje, gestión de listas, etc.

Son estructuras conocidas y que en la mayoría de los casos no hacen más que reutilizar los conocimientos de la lingüística adaptada a interfaces de voz. Aplicando lo que conocemos sobre comunicación humana podemos usar esos patrones en nuestro beneficio. 

Por ejemplo, gracias a la lingüística sabemos que hay 3 formas por las que las personas aseguramos el correcto entendimiento de un mensaje. Estas son: confirmación explícita, implícita y sin confirmación. Aplicando ese conocimiento a una interacción por voz, según nuestra necesidad podemos decidir cuál elemento es mejor para nosotros:

  • Confirmación explícita:
    Usuario: Quiero ir a Madrid – Asistente: ¿Has dicho Madrid? – Usuario: Sí – Asistente: ¿Qué día?
  • Confirmación implícita:
    Usuario: Quiero ir a Madrid – Asistente: Muy bien, Madrid, ¿qué día?
  • Sin confirmación:
    Usuario: Quiero ir a Madrid – Asistente: ¿Qué día?

dos niños hablándose al oido
Photo by Annie Spratt on Unsplash

¿Qué son los patrones sonoros y cómo los podemos utilizar en una interfaz de voz?

Por último, nos encontramos con patrones sonoros que también son utilizados para facilitar la conversación y la transmisión de mensajes orales. Implica la optimización de los mensajes por su capacidad sonora para conseguir que nuestro cerebro sea capaz de procesar mejor los mensajes. Dentro de los elementos que podemos modular nos encontramos entre otros con el tono utilizado en nuestra locución, las pausas, los efectos sonoros, los cambios de entonación o el énfasis.

Muchos de estos patrones son más que conocidos en comunicación tradicional y utilizados en el cine, la radio, la televisión o los discursos políticos. Igual que en el caso de los patrones gráficos, nos encontramos con ciertas leyes que los explican. Hay incluso traslaciones de las leyes de la Gestalt al mundo sonoro que nos hacen ver que siguen funcionado conceptos como Fondo y forma, Proximidad o Continuidad.

Veamos algunos ejemplos prácticos.

Ejemplo 1: La pregunta de respuesta cerrada con dos opciones tiene una alta tendencia ser respondida como una pregunta de Sí o No ¿Quieres A o B? – Sí. Una forma de reducir la fricción de una respuesta errónea es incluir una pausa entre los elementos, lo cual enfatiza y hace notorio al usuario que debe elegir entre las dos opciones.

Ejemplo 2: En ocasiones tenemos que lidiar con mensajes más largos de lo que nos gustaría o simplemente tratar de temas diferentes durante una intervención. Ambos casos van a lidiar con la carga cognitiva que los usuarios son capaces de soportar. Utilizar separadores sonoros entre los temas permiten al usuario reactivar el interés por la información, diferenciar los diferentes grupos y facilitar que el cerebro estructure los mensajes y facilite la comprensión.

imagen de frecuencias sonoras con barras

Conclusión

El uso de patrones facilita a los usuarios la comprensión de los mensajes y a los diseñadores/creadores la consecución del objetivo que persiguen.

Los seres humanos conocemos y utilizamos de manera inconsciente patrones en comunicación que debemos aprovechar a las hora de diseñar en Alexa, Google o cualquier otra experiencia de voz.

La mejor manera de encontrar esos patrones es analizar los códigos narrativos, la comunicación verbal y los códigos sonoros, para replicarlos en nuestras interacciones.

También recomiendo leer el libro Conversational UX Design: A Practitioner’s Guide to the Natural Conversation Framework de Robert Moore, que documenta un gran número de patrones para VUI.

¿Conoces algún otro tipo de patrón de diseño que aplique a las interfaces de voz? Comparte en los comentarios.

Si estás buscando un diseñador de VUI, echa un vistazo a mi portfolio o mándame un email a hola@jesusmartin.eu

Si te ha gustado este post aquí y quiere aprender más secretos sobre Alexa o Google Assistant, puedes leer más artículos sobre interfaces de voz.

 

Jesús

Soy Jesús Martín, y fui el diseñador de Alexa en Francia, Italia y España tras su lanzamiento en esos países. Me enamoré de la tecnología y de sus recovecos hace ya varios años y lo que voy descubriendo lo cuento en esta página.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *