https://frosthead.com

Može li statistički model precizno predvidjeti brojeve olimpijskih medalja?

Ako bi vas netko zamolio da predvidite broj medalja koje će svaka država osvojiti na ovogodišnjim Olimpijskim igrama, vjerojatno biste pokušali identificirati favorizirane sportaše u svakom događaju, a zatim zbrojite očekivane pobjede svake zemlje i postizite rezultat.

Tim i Dan Graettinger, braća koja stoje iza tvrtke za vađenje podataka Discovery Corps, Inc., imaju prilično drugačiji pristup. U potpunosti ignoriraju sportaše.

Umjesto toga, njihov model za igre u Sočiju gleda na zemljopisno područje svake zemlje, BDP po glavi stanovnika, ukupnu vrijednost izvoza i širinu zemlje kako bi odredio koliko će medalja osvojiti svaka zemlja. U slučaju da se pitate, predviđa da će se SAD izvući na prvo mjesto, s ukupno 29 medalja.

Graettingers nisu prvi koji koriste ovakav pristup temeljen na podacima, odozgo prema dolje za predviđanje broja medalja. Daniel Johnson, profesor ekonomije s koledra u Koloradu, izgradio je slične modele za pet Olimpijada između 2000. i 2008. - postižući ukupno 94 posto točnosti u predviđanju broja medalja svake zemlje -, ali nije stvorio model za Soči.

Dan i Tim su noviji u igri. Dan - koji obično radi na konvencionalnijim projektima vađenja podataka, na primjer predviđajući potencijalne kupce tvrtke - prvi se zainteresirao za korištenje modela za predviđanje natjecanja prije četiri godine, tokom zimskih olimpijskih igara u Vancouveru. "Koristim podatke o prošlosti da cijelo vrijeme predviđam budućnost", kaže on. "Svaku večer bi na TV-u prikazivali broj medalja i počeo sam se pitati možemo li to predvidjeti."

Iako nastupi pojedinih sportaša mogu se nepredvidivo razlikovati, zaključio je, mogao bi postojati sveukupni odnos između temeljnih karakteristika neke države (na primjer, veličine, klime i bogatstva države) i broja medalja koje će se vjerojatno ponijeti kod kuće. Ovakav pristup ne bi mogao reći koji natjecatelj može pobijediti u određenom događaju, ali s dovoljno podataka mogao bi se točno predvidjeti zbirni broj medalja za svaku zemlju.

U početku su zajedno s bratom radili na razvoju preliminarnog modela igara u Londonu 2012. godine. Za početak, prikupili su širok raspon različitih vrsta podataka, od svega, od zemljopisa zemlje do njene povijesti, religije, bogatstva i političke strukture. Zatim su upotrijebili regresijsku analizu i druge metode drobljenja podataka kako bi vidjeli koje varijable imaju najbližu povezanost s povijesnim podacima o olimpijskim medaljama.

Otkrili su da je za ljetne igre model koji je uključivao bruto domaći proizvod, stanovništvo, zemljopisnu širinu i ukupnu ekonomsku slobodu (mjereno indeksom Heritage Foundation) najbolje korelirao s brojem medalja svake države za prethodne dvije ljetne olimpijske igre (2004. i 2008.). Ali u tom je trenutku njihov preliminarni model mogao samo predvidjeti koje će države osvojiti dvije ili više medalja, a ne broj medalja po državama.

Odlučili su je poboljšati za igre u Sočiju, ali nisu se mogli osloniti na svoj prethodni model, jer se zemlje koje su uspješne zimi toliko razlikuju od ljeta. Njihov novi model Sochi rješava problem predviđanja broja medalja u dva koraka. Budući da oko 90 posto zemalja nikada nije osvojilo niti jednu medalju na Zimskim olimpijskim igrama (niti jedan sportaš iz Bliskog Istoka, Južne Amerike, Afrike ili Kariba), prvo odvaja deset posto koji će vjerojatno osvojiti barem jednu, a zatim predviđa koliko svaki će pobijediti.

"Neki su trendovi u velikoj mjeri ono što biste očekivali - kako populacija u zemlji postaje sve veća, vjerovatno je da će osvojiti medalju", kaže Tim. "Ipak, naposljetku, potrebni su vam još snažniji statistički strojevi koji mogu probiti kroz mnoštvo varijabli i rangirati ih u smislu kojih se najviše predviđaju."

Na kraju su naišli na nekoliko varijabli koje točno razdvajaju devedeset posto zemalja koje nisu osvojile medalje od deset posto koje će vjerovatno pobijediti: to uključuje stopu migracije, broj liječnika po glavi stanovnika, geografsku širinu, bruto domaći proizvod i je li zemlja imala osvojio medalju na prethodnim ljetnim igrama (nijedna država nikad nije osvojila zimsku medalju bez osvajanja prethodnog ljeta, dijelom i zato što je bazen ljetnih pobjednika toliko veći od zimskih). Vođenjem ovog modela na posljednje dvije Zimske olimpijske igre ovaj je model odredio koji su narodi kući osvojili medalju s 96, 5 posto točnosti.

S eliminiranim 90 posto zemalja Graettingers je upotrijebio slične regresijske analize kako bi stvorio model koji je retroaktivno predvidio koliko medalja svaka preostala zemlja osvoji. Njihova analiza otkrila je da malo drugačiji popis varijabli najbolje odgovara povijesnim podacima o medaljama. Niže su navedene varijable, zajedno s predviđanjima za igre u Sočiju:

Slika 4-predviđena medalja tablica 2 - s obrubima.png Predviđanja modela za igre u Sočiju (Graph courtesy Discovery Corps, Inc.)

Neke od varijabli za koje se ispostavilo da su korelativne nisu veliki šok - ima smisla da se zemlje veće geografske širine bolje snalaze u događajima odigranim tijekom zimskih igara - ali neke su bile više iznenađujuće.

"Mislili smo da će stanovništvo, a ne kopno, biti važno", kaže Dan. Nisu sigurni zašto se zemljopisno područje pobliže uklapa u povijesne podatke, ali to može biti zato što nekoliko zemalja visoke populacije koje ne osvajaju zimske medalje (poput Indije i Brazila) bacaju te podatke. Korištenjem kopnenih površina umjesto toga, model izbjegava velik utjecaj tih zemalja, ali i dalje zadržava grubu povezanost s stanovništvom, jer u cjelini zemlje s većim površinama imaju veće stanovništvo.

Naravno, model nije savršen, čak ni u usklađivanju povijesnih podataka. "Naš pristup je 30.000 stopa. Postoje varijable koje ne možemo uzeti u obzir", kaže Tim. Neke su države više puta nadmašile predviđanja modela (uključujući Južnu Koreju koja pobjeđuje u nesrazmjernoj količini klizačkih staza na kratkim stazama), dok druge dosljedno imaju lošiju izvedbu (poput Velike Britanije, koja na ljetnim događajima koja se čini daleko boljom od očekivanih, možda zato što - usprkos zemljopisnoj širini - pada puno više kiše nego snijega.

Uz to, dosljedna iznimka koju su pronašli u predviđanjima modela je da zemlja domaćin ima više medalja nego što bi to inače učinili, na temelju jednostavno podataka. I Italija (tijekom igara u Torinu 2006.) i Kanada (tijekom igara u Vancouveru 2010.) nadmašile su model, a Kanada je postavila svoj rekord svih vremena u osvajanju 14 zlata.

Ipak, na temelju svog statistički rigoroznog pristupa, Graettingers su uvjereni da će njihov model u cjelini predvidjeti konačne brojeve medalja s relativno visokim stupnjem točnosti.

Kako se njihova predviđanja uspoređuju s onima stručnjaka koji koriste konvencionalnije strategije? Stručnjaci se ne razlikuju dramatično, ali imaju nekoliko tradicionalno uspješnih zemalja (Norveška, Kanada, Rusija) koje osvajaju veći broj medalja, zajedno s nekoliko drugih (Kina, Nizozemska, Australija), a svaka od njih osvoji nekoliko manje.

Do danas, Graettingers nisu postavili sve oklade na svoja predviđanja, ali planiraju uspoređivati ​​rezultate svog modela s koeficijentima za klađenje neposredno prije početka igara. Ako vide razlike, koje bi htjeli iskoristiti, možda bi novac stavili tamo gdje im stoje usta.

Može li statistički model precizno predvidjeti brojeve olimpijskih medalja?