Google razvio sistem koji prepoznaje i izolira pojedinačne glasove unutar bučnog okruženja

Kompanija tvrdi kako ova tehnologija radi na videozapisima s jednim audio zapisom i može algoritamski izolirati glasove, ovisno o tome ko govori ili tako da korisnik izabere lice osobe koju želi čuti.

AUTOR: Ars Technica
OBJAVLJENO: 15.04.18 u 08:31
OSVJEŽENO: 15.04.18 u 08:31
http://bit.ly/2qwArKg
Google-ovi stručnjaci razvili su sistem umjetne inteligencije koji olakšava prepoznavanje i izoliranje pojedinih glasova unutar bučnog okruženja.

Kao što je navedeno u objavi na Google-ovom blogu ove sedmice, tim stručnjaka unutar tehnološkog giganta pokušao je replicirati učinak 'koktel zabave', odnosno sposobnosti ljudskog mozga da se fokusira na jedan izvor zvuka dok u isto vrijeme ignorira ostale izvore.

Google-ove metoda koristi audio-vizualni model pa se prvenstveno usredotočuje na izoliranje glasova u videozapisima. Kompanija je objavila brojne YouTube videozapise koji prikazuju kako tehnologija djeluje, prenosi Ars Tehnica.

Kompanija tvrdi kako ova tehnologija radi na videozapisima s jednim audio zapisom i može algoritamski izolirati glasove, ovisno o tome ko govori ili tako da korisnik izabere lice osobe koju želi čuti.

Google kaže kako je vizualna komponenta ovdje ključna budući da tehnologija prati kada se usne odabrane osobe miču kako bi bolje identifikovali glasove na koje se treba fokusirati, te kako bi stvorili preciznije individualne snimke govora.

Stručnjaci su razvili ovaj model prikupljanjem 100.000 videozapisa "predavanja i razgovora" sa YouTube-a, izdvajajući segmente duge gotovo 2.000 sati sa onih videozapisa koji sadrže neometani govor, a zatim miješajući taj zvuk kako bi stvorilio "sintetičku koktel zabavu" s dodanom bukom u pozadini.

Google je zatim trenirao tehnologiju da podijeli taj mješoviti zvuk tako što 'čita' izraze lica ljudi koji govore u video snimcima i spektrogram zvučnog zapisa tog istog video snimka. Sistem može bez problema odrediti koji audio zvuk pripada kojem licu u određenom vremenu i stvoriti zasebne govorne zapise za svakog govornika.

Google smatra kako se sistem može koristiti u "cijelom nizu aplikacija", te da "trenutno istražuju mogućnosti uključenja tehnologije u različite Google-ove proizvode". Hangouts i YouTube se čine kao logični izbori za početak, a nije teško zamisliti pomenutu tehnologiju na Google Glass i slušalicama za pojačavanje glasova.

Međutim, pored svih koristi nameće se i veliki problem privatnosti. S određenim preciznim podešavanjima, Google-ova nova tehnologija bi mogla predstavljati snažno oružje za prisluškivanje i nadzor u pogrešnim rukama.

Za Front Slobode prevela Esma Klico