Controllo vocale: come progettare una VUI (Voice User Interface)

Pavan Mulabagal Director – IoT Strategy and Marketing (ON Semiconductor)

Chiunque possieda un dispositivo connesso, avrà quasi sicuramente notato che molto spesso è possibile controllarlo o istruirlo mediante comandi vocali. In effetti il controllo vocale sta diventando un metodo di interfacciamento molto diffuso. A questo proposito basti pensare che il numero degli smart speaker, o altoparlanti “intelligenti”, venduti passerà dalle 125 milioni di unità del 2019 ai 300 milioni previsti per il 2022, con una crescita particolarmente sostenuta nel continente asiatico. Poiché a questi altoparlanti “intelligenti” viene connesso un numero sempre crescente di dispositivi esterni (Fig. 1), secondo le stime fornite dalla società di ricerca Canalys™ entro il 2022 saranno 1,6 miliardi i dispositivi controllati, sia direttamente sia indirettamente, attraverso la voce.

Fig. 1 – Applicazioni delle interfacce vocali nell’universo IoT

Uno dei maggiori vantaggi delle interfacce vocali è rappresentato dal fatto che, occupando uno spazio nettamente inferiore rispetto alle tradizionali tastiere, rispondono alle esigenze di miniaturizzazione dei moderni dispositivi portatili e indossabili. Senza dimenticare che le interfacce VUI (Voice User Interface) permettono di effettuare operazioni a mani libere che, oltre ad aumentare la sicurezza durante la guida di veicoli, assicurano una maggiore libertà a tutti coloro che hanno difficoltà a utilizzare correttamente le mani a causa di lesioni o deformità.

Per sviluppare un’interfaccia VUI in grado di soddisfare le aspettative del mercato è necessario prendere in considerazione numerosi aspetti in fase di progettazione. Costo e dimensioni sono due parametri che rivestono una particolare importanza, anche in considerazione del fatto che la tecnologia di comando vocale viene integrata in numerose applicazioni per le quali sono previsti elevati volumi, così come in dispositivi indossabili di dimensioni molto ridotte come smartwatch e bracciali per fitness.

Affinché la ricezione del suono risulti soddisfacente per la funzionalità prevista, il front end audio integrato dovrà prevedere l’utilizzo di tecniche di riduzione del rumore e di cancellazione automatica dell’eco al fine di garantire una corretta e chiara comprensione di ogni comando vocale che venga impartito. Nei dispositivi più sofisticati che possono integrare più microfoni (come appunto gli smart speaker), si ricorre a tecniche di beamforming (filtraggio spaziale) in modo da direzionare la sensibilità sonora verso il punto in cui è localizzata la persona che sta parlando. Poiché molti dispositivi che integrano un’interfaccia VUI sono alimentati a batteria, è importante che il microcontrollore utilizzato abbia core a bassissima dissipazione, che potrebbe richiedere la capacità di operare a frequenze di clock più basse.

ATTENZIONE: quello che hai appena letto è un estratto dell'articolo. Per continuare la lettura registrati oppure effettua l'accesso.

Post correlati

Commenta questo articolo