Le interfacce vocali aprono nuove possibilità di accedere a contenuti e funzionalità. Sono utili a tutti coloro che hanno difficoltà visive o motorie, anche solo contestuali e temporanee, come tenere in braccio un neonato, guidare la bici o leggere nella luce abbagliante di un giorno assolato.
In questo articolo raccontiamo come abbiamo progettato l’interfaccia conversazionale di un software di business intelligence utilizzando Alexa. Siamo partiti con supposizioni di intenti e casi d’uso, che abbiamo convalidato in seguito con attività di ricerca con persone aventi disabilità visive.
Abbiamo quindi appreso come l’esperienza d’uso vocale richieda un’esposizione diversa dei dati. Grafici e tabelle sono predominanti in questo genere di software e la sfida più grande è stata proprio esporre nel modo corretto tali dati in una conversazione vocale.
Partiamo dall’inizio: cos’è un’interfaccia utente?
Un’interfaccia è un sistema che mette in relazione un uomo e una macchina. L’essere umano comanda la macchina utilizzando dei dispositivi come ad esempio volante, pulsanti, manopole, pedali, tastiere, microfoni – detti sistemi di input.
La macchina reagisce alle informazioni e le processa, le esegue, restituendo un risultato (un output) attraverso dispositivi come monitor, spie luminose, altoparlanti. Si parla quindi di interfaccia utente (o user interface, UI). Possono essere UI fisiche come ad esempio un pannello di guida di un aereo e i comandi di una radio, o digitali come l’interfaccia di un’app, un software o un sito web.
L’evoluzione delle interfacce fino alla Vocal User Interface
L’interfaccia per interagire con i sistemi informatici è cambiata nel corso degli anni.
L’interfaccia a linea di comando (Command Line Interface, CLI) è ancora molta usata proprio nello sviluppo software, assieme alla tastiera. Si tratta di un’interfaccia poco inclusiva: per usarla serve conoscere un linguaggio e la sua sintassi e comporre le parole digitando lettera per lettera sulla tastiera.
Molto meglio la successiva interfaccia grafica con mouse e sistema operativo “a finestre”, più naturale perché sfrutta la metafora della scrivania da ufficio (le cartelle, trascinare e spostare documenti…) e i suoi gesti.
Un altro passo avanti è la UI del touch screen, dove possiamo agire direttamente sugli oggetti col dito senza la mediazione del mouse. Una UI ancora più inclusiva, usata con grande facilità da persone che in precedenza non utilizzavano dispositivi informatici; con smartphone e tablet bambini e anziani sono entrati in massa nel digitale.
L’interfaccia vocale (Vocal user interface, VUI) infine sfrutta la voce, un sistema di comunicazione naturale. Grazie alle enormi capacità di calcolo, le intelligenze artificiali e la connettività diffusa, questa interfaccia da science fiction è diventata reale ed affidabile. Ne vediamo applicazione negli assistenti digitali (Virtual Personal Assistants, VPA), come Siri, Google assistant, Duplex, Amazon Alexa.
Alcuni dati sulla diffusione della Vocal User Interface
Condividiamo qui alcuni dati per presentare la portata di questo fenomeno, perché…
Senza dati sei solo un’altra persona con un’opinione.
W. Edwards Deming
- Nel gennaio 2019 possiedono almeno uno smart speaker 66,4 milioni di persone negli Stati Uniti (∼20% della popolazione) (fonte: Statista)
- Nel primo quadrimestre del 2019, il 42% della popolazione mondiale online ha usato un dispositivo per fare una ricerca con la voce nell’ultimo mese (fonte: Statista)
- Le persone che hanno fatto un acquisto giornaliero o settimanale nell’ultimo anno hanno usato il pc (30%), lo smartphone (39%), una smart home voice assistant (37%) (fonte: PWC Global consumer survey – marzo 2021 )
L’interesse crescente verso questo tema è dimostrato anche dalla grande quantità di dispositivi disponibili sul mercato consumer come smartphone, computer, wearable, auricolari, TV, caschi e interfono moto, automobili, lampadine, aspirapolvere, macchine da caffè e ovviamente smart speaker.
Infine, l’interesse all’uso di interfacce vocali per rendere più accessibili servizi e prodotti è documentato anche da numerose pubblicazioni scientifiche. Ci piace condividere un progetto di co-design per utilizzare dispositivi con VUI (Amazon Echo con Alexa) nelle scuole, a sostegno dell’educazione inclusiva per studenti con differenti abilità visive.
Del caso citato abbiamo trovato interessante l’utilizzo di Alexa per attività educative di gruppo come giochi a quiz educativi, e la stessa attività di co-progettazione dei flussi di conversazione, costruiti con mattoncini Lego.
Altre pubblicazioni degne di approfondimento:
- Voice-Controlled Intelligent Personal Assistants in Health Care
- Smart Voice Technology for Older Adults with Visual Impairments
- Voice Commands for Users with Visual Impairments
- Small Group Interactions with Voice-User Interfaces
Vantaggi e problematiche dell’interfaccia vocale
Il valore della VUI risiede in alcuni vantaggi significativi:
- Dettare è più veloce che scrivere: le persone possono dettare circa 150 parole al minuto, contro le 40 che possono scrivere su tastiera.
- Non è necessario usare le mani: ottimo mentre sei impegnato in altre attività pratiche (ad esempio, cucinare).
- Non è necessario usare gli occhi: utile ad esempio mentre cammini.
- Riesci a fare più cose insieme: ad esempio, chiamare un numero dei contatti del telefono mentre guidi.
- È affidabile: Il riconoscimento delle parole ha un tasso di errore del 4.9% (Google I/O 2017) e del 20% su frasi complesse (Α Benchmarking of ASR – maggio 2020).
- Sempre con te: smartphone e wearable sono sempre più diffusi.
Ma per la VUI ci sono anche problemi e barriere difficili da superare:
- Privacy: le persone difficilmente parlano ad alta voce di temi sensibili come identità, malattie, sesso.
- Abitudine alla tastiera: c’è una naturale inerzia ad utilizzare sistemi che già conosciamo.
- Disponibilità di banda: le query vocali vengono inviate come file audio utilizzando la banda disponibile, processate dal sistema, trasformate in testo, rispedite a dispositivo. Niente banda, niente VUI.
- Ambienti rumorosi: il suono delle parole non deve essere coperto da rumori come potrebbe capitare ad esempio col vento in moto, ad un concerto, o in un’officina.
- Comprensione di parole e di intento: il sistema di riconoscimento è sempre più raffinato, ma fatica a comprendere espressioni dialettali, slang, e soprattutto modi di dire, metafore, ironia.
Intercettare nuovi pubblici grazie all’Interfaccia vocale
Date queste caratteristiche, i controlli vocali sono utili a chi ha difficoltà nel dare input ai dispositivi. Ad esempio:
- Analfabeti: pensiamo ad esempio ai bambini di tre anni che usano la ricerca vocale per trovare i cartoni animati o il turista russo che vuole tradurre una richiesta.
- Chi svolge lavori manuali, dalla cucina all’officina: chi ha le mani sporche, bagnate, sudate, o impegnate con un utensile.
- Ipovedenti, ciechi, anziani: chi manifesta difficoltà visive e motorie (a volte entrambe) anche temporaneamente, come scrivere sotto un sole abbagliante.
- Chi ha fretta: tutti coloro che devono fare più cose insieme come prendersi cura di un neonato, appuntarsi la spesa, telefonare, inviare un messaggio, guidare. Persone che vivono una forma di disabilità cognitiva contestuale e uno scarso livello di attenzione.
I controlli vocali sono utili anche a chi ha difficoltà nel consultare l’output, come informazioni in mobilità e alla guida:
- Chi è in auto, moto, bici, per ascoltare il navigatore, i messaggi, le email, la musica in sicurezza.
- Chi sta camminando o correndo, e vuole ascoltare audiolibri, audioguide nei musei, sfruttare la realtà aumentata.
- Corrieri, o guidatori di camion, trattori, muletti, gru, per avere informazioni sui compiti da svolgere, sul traffico e la sicurezza.
Un caso reale a cui abbiamo lavorato
Quanto condiviso sopra lo abbiamo applicato ad un caso reale, in cui l’interfaccia vocale ha risolto anche un problema di accessibilità.
Lo scenario è quello di una tech company che vuole evolvere un software di Business Intelligence, il cui target sono manager e amministrazione dell’azienda stessa.
La discovery e le attività di user research
Ci siamo posti col nostro solito modello operativo proponendo una discovery per analizzare le esigenze e aspettative del cliente. Abbiamo portato un nostro team cross-funzionale per avvalerci di tutti i punti di vista idonei ad esplorare il contesto. Grazie al nostro approccio volto al ‘learning before doing’, fin da subito è emerso che alcuni aspetti andavano ulteriormente esplorati per prendere la decisione migliore.
Dalla Discovery sono emersi sia l’obiettivo principale del cliente – evolvere il software e diffondere il dato – che il bisogno degli utenti – semplificare l’accesso alle informazioni.
Abbiamo svolto alcune attività di user research: tramite interviste e survey rivolte agli utenti abbiamo definito meglio le loro aspettative e i loro bisogni, allineando il cliente a tale percezione.
Nel contesto del cliente, il software è usato prevalentemente in lettura e in momenti cruciali di una quotidianità operativa fatta di altri task. Una necessità importante è quindi quella di poter attingere a tali dati senza interrompere altre routine lavorative. Alcuni utenti avevano portato l’esempio di un monitor dove leggere quei dati senza dover innescare una nuova azione dal loro computer o tablet. Stavano chiedendo una parallelizzazione del flusso per attingere ai dati oltre che una semplificazione del processo per raggiungerli, dato che segnalavano una tassonomia complessa e un’esperienza noiosa. Emerse anche che delle informazioni erano precluse ad alcune categorie di utenti che non avevano le condizioni per innescare il percorso di ricerca del software (condizioni con scarsa connessione o situazioni di disabilità permanenti o temporanee).
Unendo le aspettative del cliente ai dati raccolti dalle attività di user research abbiamo pensato che l’integrazione con uno smart speaker avrebbe consentito una consultazione parallela alle attività degli utenti utilizzatori, fornito un accesso alternativo e abbattuto le barriere per gli utenti preclusi.
A questo abbiamo affiancato alcune attività di benchmarking e di analisi sullo status quo degli smart speaker in generale: alla fine abbiamo optato per la soluzione tecnologica di una integrazione del loro software di Business Intelligence con lo smart speaker Amazon Echo.
Abbiamo quindi proposto al nostro cliente lo sviluppo di una Skill per Alexa che permettesse l’accesso ai dati maggiormente richiesti nella quotidianità degli utenti, per verificare se tale upgrade avrebbe centrato i due obiettivi: evolvere il software e diffondere il dato e semplificare l’accesso alle informazioni.
Il Proof of Concept: come abbiamo raggiunto gli obiettivi
Con il team cross-funzionale abbiamo realizzato questo Proof of Concept per verificare la bontà dell’idea e la fattibilità del processo.
I developer hanno lavorato ad uno spike tecnologico per verificare la possibilità di raggiungere ed elaborare i dati della Business Intelligence, mentre i designer hanno raccolto informazioni per definire il flusso da soddisfare.
Sono seguite attività sui flussi delle informazioni per rispettare la tassonomia del software esistente.
E diagrammi conversazionali per tradurre tale percorso nell’interazione vocale con uno smart speaker.
Lo sviluppo del Proof of Concept stava procedendo secondo le previsioni, fino ad un impedimento causato dall’interpretazione vocale dei dati di certi grafici.
I software di business intelligence sono ricchi di grafici a torte ed istogrammi, nell’interazione vocale venivano “raccontati” in questo modo:
“Gennaio media 18 percento, quantità 712
Febbraio media 19,3 percento, quantità 580
Marzo media 111,2 percento, quantità 208”
L’esperienza utente era negativa: il risultato finale vanificava ogni miglioria apportata al meccanismo innovativo di interrogazione. Avere un dato “raccontato” in quel modo era inutile.
Abbiamo quindi deciso di interpellare utenti con disabilità visive per aiutarci a capire come sarebbe stato meglio erogare il contenuto di un grafico di quel tipo. Di nuovo, le attività di user research hanno fatto la differenza per superare un blocco che sembrava insormontabile nel processo di sviluppo.
Poche sessioni di test con utenti non vedenti ci hanno fornito gli spunti necessari per risolvere il problema. Tra quelli più significativi:
“… non pensate al grafico come matrice di dati ma come semplificazione della mole di informazioni che contiene, per comprendere le relazioni tra essi e le varie dimensioni…”
“ … estrapolate una narrativa che racconti cosa quel grafico sta mettendo in risalto…”
In effetti i grafici forniscono un’indicazione lampante per il valore del confronto che offrono, ma non per il dato singolo che lo popola. L’interazione vocale avrebbe dovuto quindi puntare su queste relazioni e non sul dato singolo. Abbiamo quindi modificato l’erogazione del dato, ottenendo un racconto del grafico come output dall’esperienza vocale.
“Nel 2021 il picco di interventi si è tenuto a Marzo con una percentuale del 38%, a differenza del 2020 quando a Marzo la percentuale fu del 34%. A seguire Gennaio con 36% e Aprile con 32%. Vuoi approfondire?”
In questo modo abbiamo consegnato un Proof of Concept che ha soddisfatto le esigenze di evolvere il software e diffondere il dato.
La VUI ha evoluto il modo di fruire i dati, rendendolo più immediato e alla portata degli utenti, semplificando l’accesso alle informazioni. Ha semplificato la ricezione dei dati richiesti quotidianamente abbattendo anche alcune barriere.
Abbiamo soddisfatto le aspettative del cliente ascoltando gli utenti, applicando il principio dell’accessibilità e tenendo sempre sotto controllo l’obiettivo di business.
Abbiamo presentato questo caso reale il 21 maggio ad Accessibility Days 2021 – un evento sull’accessibilità e sulle disabilità rivolto a sviluppatori, designer, maker, creatori ed editori di contenuti – e a Women in voice Italy, community italiana che condivide l’interesse per l’ambito delle tecnologie vocali e, più in generale, per le interazioni uomo-macchina.