Gli esperti dell’Università di Cornell hanno sviluppato un’interfaccia di riconoscimento della “parola silenziosa” che utilizza il rilevamento acustico e l’Intelligenza Artificiale per riconoscere continuamente fino a 31 comandi non vocalizzati, basati sui movimenti delle labbra e della bocca.

L’interfaccia indossabile a basso consumo, chiamata EchoSpeech, richiede solo pochi minuti di dati di addestramento dell’utente prima che riconosca i comandi e possa essere eseguita su uno smartphone.

Ruidong Zhang, dottorando di scienze dell’informazione, è l’autore principale di “EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, che verrà presentato alla Conferenza dell’Associazione per il calcolo dei fattori umani in informatica del 2023 ad Amburgo, in Germania.

“Per le persone che non possono vocalizzare il suono, questa tecnologia di parola silenziosa potrebbe essere un’ottima soluzione per un sintetizzatore vocale. Potrebbe ridare la voce ai pazienti”, ha detto Zhang del potenziale utilizzo della tecnologia con ulteriori sviluppi.

Nella sua forma attuale, EchoSpeech potrebbe essere utilizzato per comunicare con gli altri tramite smartphone in luoghi in cui la parola è scomoda o inappropriata, come un ristorante rumoroso o una biblioteca silenziosa. L’interfaccia di parola silenziosa può anche essere accoppiata con una penna e utilizzata con software di progettazione come CAD, eliminando quasi completamente la necessità di una tastiera e di un mouse.

Dotate di un paio di microfoni e altoparlanti più piccoli di una gomma per cancellare, gli occhiali EchoSpeech diventano un sistema sonar indossabile alimentato da AI, inviando e ricevendo onde sonore sulla faccia e rilevando i movimenti della bocca. Un algoritmo di deep learning analizza quindi questi profili di eco in tempo reale, con una precisione del 95%.

“Stiamo spostando il sonar sul corpo”, ha detto Cheng Zhang, professore assistente di scienze dell’informazione e direttore del laboratorio Smart Computer Interfaces for Future Interactions (SciFi) di Cornell.

“Siamo molto entusiasti di questo sistema”, ha detto, “perché spinge davvero il campo avanti sulla performance e sulla privacy. È piccolo, a basso consumo e sensibile alla privacy, che sono tutte caratteristiche importanti per la distribuzione di nuove tecnologie indossabili nel mondo reale”.

La maggior parte delle tecnologie di riconoscimento della parola silenziosa è limitata a un insieme selezionato di comandi predefiniti e richiede all’utente di affrontare o indossare una fotocamera, che non è né pratica né fattibile, ha detto Cheng Zhang. Ci sono anche importanti preoccupazioni per la privacy che riguardano le fotocamere indossabili, sia per l’utente che per coloro che interagiscono con l’utente, ha detto.

La tecnologia di rilevamento acustico come EchoSpeech elimina la necessità di fotocamere video indossabili. E poiché i dati audio sono molto più piccoli dei dati di immagine o di video, richiedono meno larghezza di banda per essere elaborati e possono essere trasmessi a uno smartphone tramite Bluetooth in tempo reale, ha detto François Guimbretière, professore in scienze dell’informazione.

“E poiché i dati sono elaborati localmente sul tuo smartphone anziché caricati su cloud”, ha detto, “le informazioni sensibili alla privacy non lasciano mai il tuo controllo”.

In Other News Around the World:

Di Carmine

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *