Nova neuronska mreža koju su razvili istraživači s Massachusetts Institute of Technology sposobna je konstruirati grubu aproksimaciju pojedinca na temelju isječka njihovog govora, članak objavljen u arXiv izvještajima poslužitelja prije ispisa.
Tim je uvježbao alat za umjetnu inteligenciju - algoritam strojnog učenja programiran da "razmišlja" poput ljudskog mozga - uz pomoć milijuna internetskih isječaka koji su snimili više od 100 000 različitih zvučnika. Pod nazivom "Speech2Face", neuronska mreža koristila je ovaj skup podataka kako bi odredila veze između vokalnih znakova i specifičnih značajki lica; Kao što znanstvenici pišu u studiji, starost, spol, oblik nečijih usta, veličina usana, koštana struktura, jezik, naglasak, brzina i izgovor, a sve je to faktor mehanike govora.
Prema Glazmovoj Melanie Ehrenkranz, Speech2Face koristi povezanost između izgleda i govora kako bi stvorio fotorealistično prikazivanje pojedinaca okrenutih prema neutralnim izrazima. Iako su ove slike previše generičke da bi se mogle identificirati kao specifična osoba, većina njih točno utvrđuje spol, rasu i dob govornika.
Zanimljivo je kako Jackie Snow objašnjava za Fast Company, da se novo istraživanje ne samo temelji na prethodnim istraživanjima vezanim za predviđanje dobi i spola iz govora, već i ukazuje na povezanost glasa i "kraniofacijalnih značajki", poput strukture nosa.
Autori dodaju: "To se postiže bez prethodnih podataka ili postojanja točnih klasifikatora za ove vrste finih geometrijskih značajki."
Ipak, algoritam ima svojih mana. Kao što napominje Mindy Weisberger iz Live Science -a, model ima problema s analizom jezičnih varijacija. Na primjer, kad je reproducirao audioisječak azijskog čovjeka koji govori kineski, Speech2Face je proizveo lice ispravne etničke pripadnosti, ali kada je isti pojedinac snimljen kako govori engleski, AI je stvorio sliku bijelca.
U drugim su slučajevima muškarci visokog rasta, uključujući djecu, pogrešno identificirani kao žene, otkrivajući rodnu pristranost modela u povezivanju tihog glasa s muškarcima i visokog glasa sa ženama. S obzirom na činjenicu da su podaci o obuci u velikoj mjeri izvedeni iz obrazovnih videozapisa objavljenih na YouTubeu, istraživači dalje ističu da algoritam ne "predstavlja jednako cijelu svjetsku populaciju."
Prema Slate Jane Jane Hu, zakonitost korištenja YouTube videa za znanstvena istraživanja prilično je jasna. Takvi se isječci smatraju javno dostupnim informacijama; čak i ako korisnik zaštićuje autorska prava na svoje video zapise, znanstvenici mogu uključiti materijale u svoje eksperimente pod klauzulom o „poštenoj upotrebi“.
Ali etika ove prakse je manje izravna. U razgovoru s Huom, Nick Sullivan, voditelj kriptografije u Cloudflareu, rekao je da je iznenađen kad je vidio fotografiju sebe predstavljenu u studiji tima MIT-a, jer nikada nije potpisao odricanje ili čuo izravno od istraživača. Iako Sullivan kaže Huu, bilo bi "lijepo" biti obaviješten o njegovom uključivanju u bazu podataka, on priznaje da bi s obzirom na veličinu baze podataka, znanstvenici mogli doprijeti do svih prikazanih.
U isto vrijeme, Sullivan zaključuje: "Budući da su moja slika i glas navedeni kao primjer u radu Speech2Face, a ne samo korišteni kao točka podataka u statističkoj studiji, bilo bi pristojno posegnuti za time da me obavijesti ili pitajte moje dopuštenje. "
Jedna potencijalna aplikacija u stvarnom svijetu za Speech2Face koristi model da "priključi reprezentativno lice" na telefonske pozive na temelju glasa govornika. Snow dodaje da se tehnologija prepoznavanja glasa već koristi na mnogim poljima - često bez izričitog znanja ili pristanka pojedinaca. Prošle godine Chase je pokrenuo program „Voice ID“ koji uči prepoznavati klijente kreditne kartice koje zovu banku, dok popravne institucije širom zemlje grade baze podataka „glasovnih otisaka zatvorenih osoba“.