Alexa, kako djeluje Siri? Objašnjena kontrola glasa

  • Owen Little
  • 0
  • 905
  • 83
Oglas

Sada možemo razgovarati s gotovo svim našim uređajima, ali točno kako to funkcionira? Kad pitate “Kakva je to pjesma?” ili reći “Nazovi mamu”, događa se čudo moderne tehnologije. I dok se čini kao da je na vrhu, ova ideja razgovora s uređajima seže desetljećima - gotovo što se tiče jetpacks znanstvene fantastike!

Danas se najveći dio pozornosti koja se pridaje glasovno-računalnom računanju usmjeren na pametne telefone. Apple, Amazon, Microsoft i Google nalaze se na vrhu lanca od kojih svaki nudi svoj način razgovora s elektronikom. Znate tko su: Siri, Alexa, Cortana i bezimeni “Ok, Google” biće. Što postavlja veliko pitanje ...

Kako uređaj uzima izgovorene riječi i pretvara ih u naredbe koje može razumjeti? U osnovi se svodi na usklađivanje obrazaca i predviđanja na temelju tih obrazaca. Preciznije, prepoznavanje glasa je složen zadatak koji dolazi Akustično modeliranje i Jezično modeliranje.

Akustično modeliranje: valni oblici i telefoni

Akustičko modeliranje je proces uzimanja valnog oblika govora i njegove analize pomoću statističkih modela. Najčešća metoda za to je Skriveno Markovljevo modeliranje, koji se koristi u tzv. modelu izgovora kako bi se govor razgradio na dijelove koji se nazivaju telefoni (a ne da se brkati sa stvarnim telefonskim uređajima). Microsoft je dugi niz godina vodeći istraživač na ovom polju.

Skriveno Markovljevo modeliranje: Vjerojatna stanja

Skriveno Markov modeliranje je matematički prediktivni model gdje se trenutno stanje utvrđuje analizom izlaza. Wikipedia ima sjajan primjer korištenja dva prijatelja.

Zamislite dva prijatelja - lokalnog prijatelja i udaljenog prijatelja - koji žive u različitim gradovima. Lokalni prijatelj želi shvatiti kakvo je vrijeme u kojem živi udaljeni prijatelj, ali udaljeni prijatelj želi razgovarati samo o onome što je učinio taj dan: šetati, kupovati ili čistiti. Vjerojatnost svake aktivnosti, ovisno o vremenskom vremenu.

Pretvarajte se da su to jedine dostupne informacije. Pomoću nje Lokalna prijateljica može pronaći trendove kako se vrijeme mijenjalo iz dana u dan, pa se pomoću ovih trendova može početi baviti poučenim nagađanjima o tome na čemu će se današnje vrijeme temeljiti na jučerašnjim aktivnostima njene prijateljice. (Dijagram sustava možete vidjeti gore.)

Ako želite složeniji primjer, pogledajte ovaj primjer na Matlabu. U prepoznavanju glasa, ovaj model u osnovi uspoređuje svaki dio valnog oblika s onim što dolazi prije i sa onim što slijedi i sa rječnikom valnih oblika kako bi se utvrdilo što se kaže.

U osnovi, ako napravite “th” zvuk, provjerit će se taj zvuk protiv najvjerojatnijih zvukova koji obično dolaze prije i poslije njega. Možda to znači provjeriti protiv “e” zvuk, the “na” zvuk i tako dalje. Kad se obrazac ispravno poklapa, tada imate cijelu riječ. Ovo je pretjerano pojednostavljenje, ali cjelovito objašnjenje Microsofta možete vidjeti ovdje.

Jezično modeliranje: više od zvuka

Akustično modeliranje pomaže u vašem razumijevanju računala, ali što je s homonimima i regionalnim varijacijama u izgovoru? To je mjesto gdje igra jezično modeliranje. Google je pokrenuo mnoštvo istraživanja u ovom području, uglavnom korištenjem N-gram modeliranje.

Kad Google pokušava razumjeti vaš govor, to čini na temelju modela izvedenih iz njegove goleme banke glasovne pretrage i YouTube prijepisa. Svi ti urnebesno pogrešni videozapisi zapravo su pomogli Googleu da razvije svoje rječnike. Također su koristili odstupljeni GOOG-411 za prikupljanje podataka o tome kako ljudi govore.

Sva ova zbirka jezika stvorila je ogroman niz izgovora i dijalekata, što je stvorilo robustan rječnik riječi i način na koji oni zvuče. To omogućava utakmice sa znatno smanjenom stopom pogreške od podudaranja grube sile na temelju sirovih vjerojatnosti. Ovdje možete pročitati kratki rad koji opisuje njihove metode.

Iako je Google lider na ovom polju, postoje i drugi matematički modeli koji se razvijaju, uključujući modele kontinuiranog svemira i jezike na pozicionom jeziku, što su naprednije tehnike rođene istraživanjima umjetne inteligencije. Te se metode temelje na ponavljanju nazora koji ljudi rade kada slušaju jedni druge. Oni su mnogo napredniji kako u pogledu tehnologije koja stoji iza njih, ali i matematike i programiranja potrebnih za mapiranje ovih modela.

N-Gram modeliranje: Vjerojatnost zadovoljava memoriju

N-gram modeliranje djeluje na temelju vjerojatnosti, ali koristi postojeći rječnik riječi za stvaranje razgranatog stabla mogućnosti koje se zatim uglađuje radi učinkovitosti. Na neki način to znači da N-gram modeliranje uklanja mnogo neizvjesnosti u gore spomenutom Skrivenom Markovom modeliranju.

Kao što je gore spomenuto, snaga ove metode dolazi iz velikog rječnika riječi i upotreba, ne samo primitivno zvukovi. To programu daje mogućnost da razlikuje homofone, poput “pobijediti” i “repa”. To je kontekstualno, što znači da kad govorite o sinoćnjim rezultatima program ne izvlači riječi o borschtu.

Ali ti modeli zapravo nisu najbolji za jezik, uglavnom zbog problema s vjerojatnošću riječi u dužim frazama. Dok dodate više riječi u rečenicu, ovaj model malo otpada, jer je malo vjerovatno da su vaše rane riječi napunile sve što je potrebno za vašu kompletnu misao.

Međutim, to je jednostavno i lako implementirati, što ga čini izvrsnom podudarnošću za tvrtku poput Googlea koja uživa u bacanju poslužitelja na računske probleme. Možete dalje čitati N-gram Modelieng na Sveučilištu u Washingtonu ili možete pogledati predavanje na Courseri.

Vikanje u oblacima: Aplikacije i uređaji

Svatko tko koristi Siri poznaje frustraciju sporog povezivanja u mrežu. To je zato što se vaše naredbe za Siri šalju preko mreže da bi ih Apple dešifrirao. Cortana za Windows telefon zahtijeva i mrežnu vezu kako bi ispravno funkcionirala. Nasuprot tome, Amazonov Echo samo je Bluetooth zvučnik bez ikakvog interneta.

Zašto razlika? Budući da su Siri i Cortana potrebni delovni serveri za dekodiranje vašeg govora. Može li se to učiniti na vašem telefonu ili tabletu? Svakako, ali time biste ubili performanse i vijek trajanja baterije. Samo ima smisla prebacivati ​​obradu na namjenske strojeve.

Razmislite na ovaj način: vaša naredba je automobil zaglavljen u blatu. Vjerojatno biste ga sami mogli izbaciti s dovoljno vremena i truda, ali proći će sati i ostaviti vas iscrpljeno. Umjesto toga, nazovite pomoć na cesti i oni će izvući vaš automobil za samo nekoliko minuta. Nedostatak je što morate nazvati i čekati ih, ali i dalje je to brže i manje oporezivati.

Desktop modeli poput Nuancea imaju tendenciju da koriste lokalne resurse zbog moćnijeg hardvera. Uostalom, riječima Stevea Jobsa, radna površina vam je kamion. (Zbog čega je pomalo blesavo da OS X koristi poslužitelje za obradu.) Dakle, kada trebate obrađivati ​​jezik i glas, on je već dovoljno dobro opremljen da ga samostalno može obraditi..

S druge strane, Android omogućava programerima da u svoje aplikacije uključe prepoznavanje govora izvan mreže. Google voli napredovati u tehnologiji, a možete se kladiti da će druge platforme steći tu sposobnost jer njihov hardver postaje snažniji. Nitko ga ne voli kada loša pokrivenost ili loš prijem lobotomizira njihov uređaj.

Počnite upotrebljavati glasovne naredbe odmah

Sada kada znate temeljne koncepte, trebali biste se igrati s različitim uređajima. Isprobajte novu glasovnu tipkanju u Google dokumentima Kako je tipkanje glasom nova najbolja značajka Google dokumenata Kako je glasovno tipkanje novo najbolje obilježje Google Docs prepoznavanje glasa poboljšalo se skokovima i granicama posljednjih godina. Početkom ovog tjedna Google je konačno uveo glasovno tipkanje u Google Dokumente. Ali je li to dobro? Hajde da vidimo! , Kao da paket web ureda nije već dovoljno moćan, glasovna kontrola omogućuje vam u potpunosti diktiranje i oblikovanje dokumenata. To se proširuje na snažnoj tehnologiji koju su već dizajnirali za Chrome i Android.

Ostale ideje uključuju postavljanje vašeg Mac-a za korištenje glasovnih naredbi Kako koristiti govorne naredbe na Mac-u Kako se koriste govorne naredbe na vašem Mac-u i postavljanje vašeg Amazon Echo-a s automatskim odjavama Kako Amazon Echo može učiniti vaš dom Pametnim domom Kako Amazon Echo može Učinite svoj dom Pametnim domom Pametni kućni tehničar još je uvijek u prvim danima, ali novi Amazonov proizvod nazvan "Echo" možda će vam pomoći da se on uvede u glavni tok. , Živite u budućnosti i zagrlite razgovarajući sa svojim uređajima - čak i ako samo naručujete više papirnatih ručnika. Ako ste ovisnik o pametnim telefonima, dobili smo i tutorijale za Siri 8 stvari koje vjerojatno niste shvatili, Siri nije mogao učiniti 8 stvari koje vjerovatno niste shvatili Siri je mogao učiniti da Siri postane jedna od iPhone-ovih ključnih karakteristika, ali za mnogi ljudi, nije uvijek najkorisniji. Iako je to nešto zbog ograničenja prepoznavanja glasa, neobičnosti korištenja ..., Cortana 6 zgodnih stvari koje možete kontrolirati s Cortanom u sustavu Windows 10 6 Najhladnije stvari koje možete upravljati pomoću Cortane u sustavu Windows 10, Cortana vam može pomoći bez ruku. u sustavu Windows 10. Možete joj dopustiti da pretražuje vaše datoteke i web, izračunava ili podiže vremensku prognozu. Ovdje ćemo pokriti neke od njezinih vještina hladnjaka. , i Android OK, Google: 20 korisnih stvari koje možete reći svom Android telefonu OK, Google: 20 korisnih stvari koje možete reći svom Android telefonu Google Assistant vam može pomoći da učinite puno na svom telefonu. Ovdje je hrpa osnovnih, ali korisnih OK Google naredbi koje treba isprobati. .

Koja je vaša omiljena uporaba kontrole glasa? Javite nam se u komentarima.

Slikovni krediti: T-flex preko Shutterstock-a, Terencehonles putem Fondacije Wikimedia, država Arizona, Cienpies Design putem Shutterstock-a




Još ne komentari

O modernoj tehnologiji, jednostavnoj i pristupačnoj.
Vaš vodič u svijetu moderne tehnologije. Naučite kako koristiti tehnologije i uređaje koji nas okružuju svaki dan i naučite kako otkriti zanimljivosti na Internetu.