Vorbește-mi computer: Controlul vocal se declanșează

Dacă pachetele neașteptate încep să apară la ușa dvs., vă recomandăm să spuneți un cuvânt cu unul dintre dispozitivele dvs. inteligente.

La începutul acestei luni, o tânără de șase ani din Dallas și-a întrebat-o pe cea a familiei sale Amazon Echo difuzor inteligent pentru o casă de păpuși. Și Alexa, asistentul artificial Siri de la Amazon, cu promptitudine a comandat unul spre casa lor.

O emisiune TV din San Diego a preluat povestea și a repetat-o ​​din greșeală atunci când una dintre ancore a știrilor a comentat: „Iubesc fetița, spunând„ Alexa comandă-mi o casă de păpuși ”.” Auzind acest lucru, alte câteva dispozitive Amazon din casele din San Diego a încercat să cumpere mai multe case de păpuși.

Raport de știri CW6 San Diego despre cumpărarea accidentală a casei de păpuși a lui Alexa.

{youtube}oI2KLIULjXc{/youtube}

Povestea ar putea părea familiară oricui ar fi încercat să aibă o conversație cu Apple Siri sau Cortana Microsoft. Dispozitivele noastre au devenit destul de bune la ascultarea noastră, dar asta nu înseamnă întotdeauna că înțeleg.

Cercetătorii de la Microsoft au identificat recent această problemă ca fiind o posibilă problemă cu interfețele de vorbire de astăzi: sunt comercializați ca asistenți „inteligenți”, cu glume inteligente și cunoștințe lumești, totuși adesea ne frustrează cu lipsa lor de bun simț.


innerself abonare grafică


Într-o studiu mic, cercetătorii au descoperit că oamenii care au continuat să vorbească cu asistenții lor digitali de-a lungul timpului au fost cei care au început cu cele mai mici așteptări.

Ce face de fapt o interfață vocală?

Când vorbiți cu o interfață vocală, trebuie să:

  • „Auzi” sunetul vocii tale și distinge-l de zgomotul de fundal
  • descoperiți unde începe și se termină fiecare cuvânt, ignorând „umms” și „ahhs”
  • potriviți sunetul fiecărui cuvânt cu un cuvânt din dicționar, alegându-l pe cel potrivit din context, dacă există homofoni
  • interpretează corect sensul întregii propoziții
  • generați un răspuns util și util care se potrivește cu solicitarea dvs.

Fiecare dintre acestea reprezintă o provocare tehnică complexă, iar diferite companii de tehnologie au făcut progrese în diferite domenii.

Google Now este bun în a oferi răspunsuri relevante la o gamă largă de solicitări, deoarece beneficiază de descoperirile Google de date despre web și activitățile dvs. personale, dacă utilizați serviciile Google.

Amazon Echo este deosebit de bun la auzul cererilor dvs. dintr-o cameră zgomotoasă, datorită unui set de microfoane cu câmp îndepărtat care anulează zgomotul. Desigur, este de asemenea bun la achiziții prin Amazon.

În ultimii ani, interfețele vocale au devenit mult mai bune la înțelegerea vorbirii de zi cu zi sau „naturale”, mai degrabă decât la comenzile stilted și formulate cu atenție. Ei sunt încă mai în măsură să gestioneze interogări simple, cum ar fi „cine joacă în Australian Open?”, Și tind să se lupte cu cereri mai complicate, cum ar fi „cine joacă în Australian Open pentru prima dată anul acesta?”, Și urmări întrebări, precum „va ploua în timpul finalei?”.

Situația este chiar mai amestecată pentru alte limbi decât engleza: în timp ce Siri acceptă mai mult de 40 de limbi și dialecte, până în prezent Alexa este disponibil doar în engleză și germană. Dar toate aceste caracteristici se îmbunătățesc constant.

Unde se bâlbâie interfețele vocale

La fel și interfețele vocale vor prelua în curând toată tehnologia noastră, așa cum se prezice în film Ei? Gartner, o firmă de cercetare tehnologică, a prognozat că până anul viitor, 30% din interacțiunile noastre cu tehnologia vor fi conversații cu interfețe vocale.

Dar interfețele vocale au limitări și nu toate pot fi rezolvate printr-o tehnologie mai bună.

Vocea este un mijloc central de interfață cu tehnologia din filmul Her al lui Spike Jonze.

{youtube}ne6p6MfLBxc{/youtube}

Poluarea fonică este un obstacol major. Dispozitivul dvs. poate distinge ceea ce spuneți de zgomotul de fundal din jur? Tehnologia vă poate ajuta, inclusiv reducerea zgomotului, recunoașterea vocală personalizată și citirea buzelor.

Dar ce zici de zgomotul de fundal pe care îl creezi pentru alții vorbind cu dispozitivul tău inteligent? Imaginați-vă o persoană care stă lângă dvs. la birou - sau într-un avion - vorbind cu Siri în timp ce încercați să citiți și puteți vedea de ce interfețele vocale nu sunt întotdeauna acceptabile din punct de vedere social.

Un alt set de probleme provine din cerințele mentale ale interfețelor vocale. Învățarea utilizării unui sistem bazat pe voce poate fi dificilă, mai ales dacă nu există ecran, ca și în cazul Amazon Echo.

Dacă ați sunat vreodată la o bancă sau la o companie de telefonie, știți combinația mizerabilă de concentrare și plictiseală care vine din ascultarea unei liste vocale sintetizate din toate opțiunile în timp ce așteptați cea de care aveți nevoie și încercați să nu le amestecați sus. Interfețele grafice tradiționale evită această problemă arătându-vă opțiunile disponibile și permițându-vă să atingeți rapid alegerea dvs.

După ce ați învățat comenzi vocale, utilizarea acestora poate fi distractivă. Cercetătorii au descoperit că comenzile vocale deraiați-vă trenul de gândire mai mult decât un mouse și o tastatură.

Acest lucru este deosebit de periculos pentru interfețele vocale din mașină: o pereche de studii de la Universitatea din Utah au constatat că șoferii erau distras timp de până la 27 de secunde după utilizarea comenzilor vocale.

University of Utah / AAA Foundation for Traffic Safety research on distraction driver.

{vimeo}108281698{/vimeo}

Îi găsești vocea?

Deci, este puțin probabil ca interfețele vocale să preia în totalitate, dar vor găsi nișe utile în viața noastră. Sunt deja obișnuite în mașini, unde sperăm că vor deveni mai puțin distractive pe măsură ce tehnologia se îmbunătățește.

În bucătărie, îi puteți cere lui Alexa să vă vorbească printr-o rețetă sau să vă actualizeze lista de cumpărături în timp ce mâinile dvs. sunt ocupate să gătească. În realitatea virtuală și augmentată, interfețele vocale vă pot permite să controlați sistemul atunci când nu vă puteți vedea deloc mâinile.

În învățarea limbilor străine, acestea pot fi folosite pentru practicarea pronunției. Cel mai important, interfețele vocale ajută utilizatorii cu deficiențe motorii, RSI sau dislexie să-și depășească dizabilitățile.

Interfețele vocale sunt o tehnologie mult așteptată și există motive întemeiate să credem că timpul lor a venit în cele din urmă. Amintiți-vă doar că este posibil să nu fie încă atât de isteți pe cât sună. Și s-ar putea să doriți să puneți un cod PIN la achizițiile vocale dacă copiii sunt în preajmă.

Conversaţie

Despre autor

Fraser Allison, doctorand în interacțiunea om-computer, Universitatea din Melbourne

Acest articol a fost publicat inițial Conversaţie. Citeste Articol original.

Articole legate de

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market și Amazon