Googleovo prepoznavanje govora sada može upravljati koktelima

Ljudi su izvrsni u odabiru i fokusiranju na jedan glas u bučnom okruženju. Računala postaju sve bolja u prepoznavanju govora što dokazuje sve veći broj digitalnih asistenata, ali i dalje imaju problema kada postoji više glasova ili puno pozadinske buke. Čini se da je Google riješio problem, međutim, koristeći i audio i video za obuku sustava za izolaciju govora.



logitech ključeve za pregled

Fenomen koji je Google pokušavao kopirati poznat je kao efekt koktela . To je sposobnost mozga da se selektivno fokusira na zvuk dok filtrira sve druge podražaje. Dobar primjer ovoga je slušanje nekoga kako govori u vrlo bučnoj prostoriji.

Google Research riješio problem kombinirajući video i audio kako bi identificirao tko govori na temelju pokreta usta i povezavši to sa zvukom koji se čuje. Osposobljavanje 'višestrujne konvolucijske neuronske mreže' za obavljanje ovog zadatka zahtijevalo je prikupljanje 100.000 visokokvalitetnih video predavanja i razgovora s YouTubea, a zatim iz njih izdvajanje čistih govornih segmenata.





To je rezultiralo 2000 sati čistih podataka s kojima se stvaraju 'sintetski koktel partyji'. Google je to postigao miješanjem videa tako da su dvije osobe razgovarale istovremeno. Dodana je i pozadinska buka koja nije govora samo kako bi stvari bile realnije (i teške).

Kao što gornji video pokazuje, nakon što je osposobljen, sustav se može usredotočiti na jedan glas i filtrirati sve ostalo. Isto je moguće kada samo jedna osoba govori, ali pozadinska buka je dovoljno loša da se teško čujete što se govori.



Evo dobrog primjera kako Googleov sustav može poboljšati zvuk koristeći postavku bučne kafeterije:

specifikacije za sony srs-xb43

Kao što možete zamisliti, postoje mnoge situacije u kojima bi ova tehnologija mogla imati pozitivan utjecaj. Za unaprijed snimljeni video, automatski bi titlovi trebao biti mnogo točniji jer se svaki glas može usredotočiti na dio procesa. Možda će biti potrebno više prolaza, ali se isplati ako se točnost prepoznavanja značajno poveća.

Za nagluhe, sustav bi se mogao koristiti kao dio kombinacije slušnog pomagala i pametnih naočala. Nositelj gleda osobu koju želi slušati u bučnom okruženju, a slušni aparat koji nosi može filtrirati sve osim glasa jer kamera na naočalama prati pokrete usta. Isto je moguće i kada gledate TV, što bi moglo imati koristi od nove postavke 'fokusa na govor' za audio izlaz. YouTube bi vjerojatno prvi dobio takvu značajku.

Google već istražuje kako tu tehnologiju može ugraditi u svoje proizvode, a očito je da će Googleov digitalni asistent biti u fokusu. Mogućnost razgovora s uređajima Google Home (79,00 USD u Google Storeu) u bučnom obiteljskom okruženju ili upućivanje Googlea da učini nešto pomoću vašeg pametnog telefona u bilo kojem broju bučnih javnih situacija jasni su budući korisnici ove tehnologije.

moneydance ne ažurira cijene dionica
Preporučeno