https://frosthead.com

Zašto Google Raširenost gripe ne može pratiti gripu (još)

Google je 2008. objavio novu intrigantnu novu uslugu pod nazivom Google gripa. Inženjeri iz tvrtke primijetili su da određeni upiti pretraživanja (poput onih koji uključuju riječi "groznica" ili kašalj) izgledaju kao da potiču svaku sezonu gripe. Njihova ideja bila je da se pomoću ovih učestalosti izračuna brže nego što bi se moglo računati u cijeloj zemlji. učinjeno konvencionalnim podacima (što obično traje nekoliko tjedana za prikupljanje i analizu), što ljudima daje do znanja kada treba poduzeti dodatne mjere opreza kako ne bi dobili virus.

Povezani sadržaj

  • Kako vremenski modeli i Google mogu pomoći u prognozi sezone gripe
  • Veliki podaci ili previše informacija?

Mediji (uključujući i ovog izvjestitelja) požurio su Googleu čestitati Googleu na tako pronicljivoj, inovativnoj i razornoj upotrebi velikih podataka. Jedini problem? Google Raširenost gripe nije se pokazala vrlo dobro.

Služba je dosljedno precjenjivala stope gripe, u usporedbi s konvencionalnim podacima prikupljenim nakon CDC-a, procjenjujući da je incidencija gripe veća nego što je zapravo bila u 100 od 108 tjedana između kolovoza 2011. i rujna 2013. U siječnju 2013., kada je nacionalna stope gripe su dosegle vrhunac, ali procjene Google gripa u trendu bile su dvostruko veće od stvarnih podataka, a njegova je netočnost napokon počela prikupljati novinske izvještaje.

Najčešće objašnjenje nepodudarnosti bilo je to što Google nije uzeo u obzir poteškoće u upitima povezanim s gripom koji se javljaju kao posljedica medijske histerije gripe koja se pojavljuje svake zime. Ali ovog tjedna u časopisu Science, skupina društvenih znanstvenika na čelu s Davidom Lazerom predlaže alternativno objašnjenje: za to su krivi Google-ovi vlastiti prilagodci algoritmu pretraživanja.

Za vanjske ljude teško je analizirati Google Raširenost gripe, jer tvrtka ne objavljuje specifične pojmove za pretraživanje koje koristi kao sirove podatke, niti određeni algoritam koji koristi za pretvaranje učestalosti ovih pojmova u procjene gripe. No istraživači su dali sve od sebe kako bi zaključili pojmove pomoću Google Correlate, usluge koja omogućuje uvid u stope određenih pojmova za pretraživanje tijekom vremena.

Kada su istraživači to učinili za različite upite povezane s gripom u posljednjih nekoliko godina, otkrili su da je nekoliko ključnih pretraga (onih za liječenje gripe i onih koje pitaju kako razlikovati gripu od prehlade) pomnije pratio Google Glu Procjene trendova nego s stvarnim stopama gripe, osobito kada je Google precijenio rasprostranjenost te bolesti. Čini se da bi ove konkretne pretrage mogle biti velik dio problema s netočnošću.

Postoji još jedan dobar razlog za sumnju da je to možda tako. Godine 2011., Google je, kao dio jednog od svojih redovitih pretraživanja algoritama pretraživanja, počeo preporučivati ​​pojmove za pretraživanje za mnoge upite (uključujući popis potražnje za liječenjem gripe nakon što netko ne koristi mnoge izraze povezane s gripom), a 2012. godine kompanija je počela pružati potencijalne dijagnoze kao odgovor na simptome u pretragama (uključujući navođenje i „gripe“ i „prehlade“ nakon pretrage koja je, primjerice, uključivala izraz „grlobolja“, možda korisnog nagovorila korisnika da traži kako to razlikovati). Ovi prepadi, tvrde istraživači, vjerojatno su umjetno povisili stope pretraživanja koja su identificirali kao odgovorne za Googleove precijene.

Naravno, ako je ta hipoteza bila istinita, to ne bi značilo da je Google Raširenost gripe neizbježno osuđena na netočnost, već je treba ažurirati kako bi uzela u obzir stalne promjene tražilice. No Lazer i ostali slični stručnjaci tvrde da je praćenje gripe iz velikih podataka posebno težak problem.

Ogroman udio pojmova za pretraživanje koji su u korelaciji s podacima CDC-a o stopi gripe, ispada, ne uzrokuju ljudi koji dobivaju gripu, već treći faktor koji utječe i na obrasce pretraživanja i na prijenos gripe: zima. U stvari, programeri Google grips trendovi izvijestili su da se susreću s određenim izrazima - onima koji su se odnosili na košarku u srednjoj školi - koji su s vremenom bili u korelaciji s stopama gripe, ali očito nisu imali nikakve veze s virusom.

S vremenom su Googleovi inženjeri ručno uklonili mnoge pojmove koji su u korelaciji s pretragom gripe, ali nemaju nikakve veze sa gripom, ali njihov je model očito bio previše ovisan o sezonskim trendovima pretraživanja gripe - dio razloga zbog kojeg Google Raširenost gripe nije odražavala 2009. epidemija H1N1, koja se dogodila tijekom ljeta. Google Raširenost gripe, posebno u ranijim verzijama, bila je "dio detektora gripe, dijelom detektor zime", pišu autori znanstvenog članka.

Ali sve to može biti pouka za korištenje velikih podataka u projektima poput Google gripe, a ne opća optužnica o tome, kažu istraživači. Ako se ispravno ažurira kako bi se uzeli u obzir prilagođavanja Googleovom vlastitom algoritmu i strogo analizirali radi uklanjanja čisto sezonskih čimbenika, moglo bi biti korisno u dokumentiranju stopa gripe u cijeloj državi - posebno u kombinaciji s konvencionalnim podacima.

Kao test, istraživači su stvorili model koji je kombinirao podatke Google Raširenosti gripe (koji su u osnovi u stvarnom vremenu, ali potencijalno netočni) s dvotjednim podacima CDC-a (koji su datirani, jer treba vremena za prikupljanje, ali još uvijek se mogu donekle indikativno za trenutnu stopu gripe). Njihov se hibrid podudarao sa stvarnim i trenutačnim podacima gripe mnogo bliže nego sam Google gripi i predstavio način dobivanja tih podataka mnogo brže nego čekanje na konvencionalne podatke dva tjedna.

"Naša analiza Google gripe pokazuje da najbolji rezultati dolaze iz kombiniranja informacija i tehnika iz oba izvora", izjavio je u izjavi za novinare Ryan Kennedy, profesor politologije sa Sveučilišta u Houstonu. "Umjesto da govorimo o" revoluciji velikih podataka ", trebali bismo razgovarati o" revoluciji svih podataka "."

Zašto Google Raširenost gripe ne može pratiti gripu (još)