MOŽE LI RAČUNALNI MODEL PREDVIDJETI PRVI KRUG OVOGODIŠNJEG MARŠ LUDILA? | INOVACIJA | SMITHSONIAN - ČLANCI, INOVACIJA, TEHNOLOGIJA

"Pazite na Ožujski ides." Da, konačno je ponovno doba godine: kada carevi koledžke košarke moraju gledati leđa, da ne izgube sjeme turnira s donjim dnom.

Prije 15. ožujka, milijuni diljem svijeta popunit će zagrade za March Madness. ESPN je u 2017. godini dobio rekordnih 18, 8 milijuna zagrada.

Prvi korak do savršenog zagrada je pravilno odabir prvog kruga. Nažalost, većina nas ne može predvidjeti budućnost. Prošle godine samo 164 predana zagrada bila su savršena kroz prvi krug - manje od 0, 001 posto.

Podneseno je 18, 8 milijuna zagrada.

164 su savršeni nakon 1. kola.

Evo prevladavanja. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
- ESPN Fantasy Sports (@ESPNFantasy) 18. ožujka 2017

Mnogi zagrade se raspadaju kada tim s nižim semenom uznemiri preferirano više sjeme. Otkako se 1985. godine polje proširilo na 64 timova, godišnje se dogodi najmanje osam napada. Ako želite osvojiti svoj bazen s bracketom, bolje je odabrati barem nekoliko nadogradnji.

Mi smo dva doktorata matematike. kandidati na Državnom sveučilištu Ohio koji imaju strast prema znanosti o podacima i košarci. Ove godine zaključili smo da bi bilo zabavno izgraditi računalni program koji koristi matematički pristup kako bi predvidio prvoklasne napade. Ako smo u pravu, nosač odabran pomoću našeg programa trebao bi bolje proći kroz prvi krug od prosječnog.

Pogrešivi ljudi

Nije lako prepoznati koja će od utakmica iz prvog kruga izazvati uznemirenost.

Recite da se morate odlučiti između sjemena br. 10 i 7. Sjeme broj 10 skinulo je nadmudrivanje u svoja prethodna tri turnirska nastupa, jednom čak i napravivši Final Four. Sjeme broj 7 tim je koji ima malo nacionalnog pokrivanja; povremeni obožavatelj vjerojatno nikad nije čuo za njih. Koje biste odabrali?

Da ste izabrali sjeme broj 10 u 2017. godini, otišli biste sa Sveučilište Virginia Commonwealth preko Saint Mary's of California - i pogriješili biste. Zahvaljujući pogrešnosti u odlučivanju koja se naziva pristranost primanja, ljudi mogu biti prevareni da koriste svoja najnovija zapažanja za donošenje odluke.

Pristranost pristojnosti samo je jedna vrsta pristranosti koja može ući u nečiji postupak odabira, ali postoje i mnogi drugi. Možda ste pristrani prema svom domaćem timu, ili se možda poistovjećujete s igračem i očajnički želite da on ili ona uspije. Sve to utječe na vaš nosač na potencijalno negativan način. U ove zamke upadaju čak i iskusni profesionalci.

Modeliranje uzrujavanja

Strojno učenje može se obraniti od ovih zamki.

U strojnom učenju statističari, matematičari i računalni znanstvenici obučavaju stroj za izradu predviđanja tako što će ga omogućiti da uči iz prošlih podataka. Ovaj se pristup primjenjivao na mnogim raznim područjima, uključujući marketing, medicinu i sport.

Tehnike strojnog učenja mogu se usporediti s crnom kutijom. Prvo, unesete prethodne podatke algoritma, u biti postavljajući brojčanike na crni okvir. Nakon što su postavke kalibrirane, algoritam može očitati nove podatke, uspoređivati ih s prošlim podacima i zatim ispljuniti svoja predviđanja.

Crni okvir algoritama strojnog učenja. (Matthew Osborne, CC BY-SA)

U strojnom učenju dostupne su različite crne kutije. Za naš projekt March Madness, oni koje smo željeli poznati su kao algoritmi za klasifikaciju. Oni nam pomažu u određivanju treba li igra klasificirati kao uznemirujuću, bilo pružanjem vjerojatnosti uznemirenosti ili eksplicitnim klasificiranjem igre kao jedne.

Naš program koristi brojne popularne algoritme klasifikacije, uključujući logističku regresiju, slučajne šume modele i k najbliže susjede. Svaka metoda je kao različita “marka” istog stroja; oni djeluju pod haubom kao Fords i Toyota, ali obavljaju isti posao klasifikacije. Svaki algoritam ili okvir ima svoja predviđanja o vjerojatnosti uznemirenosti.

Koristili smo statistiku svih prvoligaških ekipa od 2001. do 2017. za postavljanje biranja na naše crne kutije. Kad smo testirali jedan od naših algoritama s podacima iz prvog kruga 2017., imao je oko 75 posto uspješnosti. To nam daje sigurnost da analiziranje prošlih podataka, umjesto da se samo povjeravamo našim crijevima, može dovesti do preciznijih predviđanja poremećaja i tako do boljeg ukupnog broja zagrada.

Koje prednosti imaju ove kutije nad ljudskom intuicijom? Za jedno, strojevi mogu u nekoliko sekundi prepoznati uzorke u svim podacima za razdoblje 2001.-2017. Štoviše, budući da se strojevi oslanjaju samo na podatke, možda je manje vjerojatno da će pasti za ljudske psihološke pristranosti.

To ne znači da će nam strojno učenje dati savršene zagrade. Iako okvir zaobilazi ljudsku pristranost, nije imun na pogreške. Rezultati ovise o prošlim podacima. Na primjer, ako bi sjeme broj 1 izgubilo u prvom krugu, naš model to vjerojatno ne bi predvidio, jer se to nikada ranije nije dogodilo.

Uz to, algoritmi strojnog učenja najbolje rade s tisućama ili čak milijunima primjera. Od 2001. godine odigrano je samo 544 igara u ludnici iz prvog kruga, tako da naši algoritmi neće pravilno pozvati svaku uznemirenost. Odbojna košarkaška stručnjakinja Jalen Rose, naš se proizvod treba koristiti kao alat u kombinaciji s vašim stručnim znanjem - i srećom! - odabrati ispravne igre.

Strojno učenje ludila?

Nismo prvi koji su primijenili strojno učenje na ožujsko ludilo i nećemo biti zadnji. Zapravo, uskoro mogu biti potrebne tehnike strojnog učenja kako bi vaš nosač bio konkurentan.

Ne treba vam diploma matematike da biste koristili strojno učenje - iako nam to pomaže. Uskoro će strojno učenje biti dostupnije nego ikad. Oni koji su zainteresirani mogu pogledati naše modele na mreži. Slobodno istražite naše algoritme i čak sami smislite bolji pristup.

Ovaj je članak prvotno objavljen u časopisu The Conversation.

Matthew Osborne, kandidat za matematiku, Državno sveučilište Ohio

Kevin Nowland, doktorat iz matematike, Državno sveučilište Ohio