https://frosthead.com

Kako bi umjetna inteligencija mogla revolucionarati istraživanja arhivskog muzeja

Kada razmišljate o umjetnoj inteligenciji, polje botanike vjerojatno nije najviše u vašem umu. Kad fotografirate postavke vrhunskih računskih istraživanja, stoljetni muzeji možda nisu na vrhu liste. Ipak, upravo objavljeni članak u časopisu o biološkoj raznolikosti pokazuje da se neke od najuzbudljivijih i najupečatljivijih inovacija u strojnom učenju događaju samo u Nacionalnom herbariju Nacionalnog prirodnog muzeja u Washingtonu, DC

Ovaj rad, koji pokazuje da su digitalne neuronske mreže sposobne razlikovati dvije slične obitelji biljaka, a postotak točnosti iznosi preko 90 posto, podrazumijeva sve vrste mogućnosti za ispiranje usta kroz koje napreduju znanstvenici i akademici. Studija se oslanja na softver utemeljen na algoritmima "dubokog učenja", koji računalnim programima omogućuju prikupljanje iskustva na gotovo isti način kao što to rade ljudski stručnjaci, nadograđujući svoju igru ​​svaki put kada se pokrenu. Ubrzo, ova tehnologija mogla bi omogućiti komparativne analize milijuna uzoraka iz svih krajeva svijeta - prijedlog koji bi prethodno zahtijevao neodrživu količinu ljudskog rada.

"Ovaj smjer istraživanja pokazuje mnogo obećanja", kaže profesor Stanforda Mark Algee-Hewitt, istaknuti glas u digitalnom humanističkom pokretu i pomoćnik direktora fakulteta u Sveučilišnom centru za prostornu i tekstualnu analizu. "Ove metode imaju mogućnost da nam daju ogromne količine informacija o tome što zbirke sadrže", kaže on, i "čineći te podatke dostupnima."

Ova nova otkrića nadovezuju se na dugogodišnji rad poduzetnika na Smithsonian instituciji da se sustavno digitaliziraju njegove zbirke za akademski i javni pristup internetu i predstavljaju izvanredan interdisciplinarni sastanak umova: botaničari, stručnjaci za digitalizaciju i znanstvenici s podacima koji su svi imali ulogu u tome. rezultati do svjetla.

Priča započinje u listopadu 2015., kad je ugradnja aparata za fotoaparat i prijenosni trak ispod Prirodoslovnog muzeja uvelike pojednostavila napore za digitalizaciju Smithsonianove botaničke zbirke. Umjesto da ručno skeniraju svaki prešani cvijet i gomilu trave u njihovom spremištu, radnici bi sada mogli staviti u red čitave nizove uzoraka, pustiti kaišu da djeluje magično i povući ih i ponovno katalogizirati na kraju repa. Tročlana posada nadgledala je pojas od svog debija, a oni prolaze kroz oko 750 000 uzoraka svake godine. Prije dugo vremena, Smithsonianov popis herbarija, jak pet milijuna uzoraka, bit će u potpunosti online.

Svaki je uzorak označen temeljitom identifikacijskom karticom koja pruža informacije o njegovom porijeklu kao i osnovne statističke podatke. Sadržaj ovih kartica prepisan je i prenesen zajedno s digitalnim slikama, pružajući sveobuhvatan pregled svake stavke u zbirci za one koji imaju sklonost pretraživanju.

U Smithsonianovoj digitaliziranoj botaničkoj arhivi slike uzoraka visoke rezolucije uparene su s transkripcijama priručnih ID oznaka. U Smithsonianovoj digitaliziranoj botaničkoj arhivi slike uzoraka visoke rezolucije uparene su s transkripcijama priručnih ID oznaka. (Nacionalni prirodoslovni muzej)

„Naša kolekcija čini dostupnom svima koji imaju računalo i internetsku vezu, “ kaže stolica muzejske botanike Laurence Dorr, „što je sjajno za odgovore na određena pitanja.“ Čak iako je tako, Dorr je otkrio da se ne može otresti osjećaja neiskorištenog potencijala, Svakako, ogromne količine podataka o uzorcima sada su dostupne mrežnoj zajednici, ali njihova analiza u zbiru ostala je maštovita. Potraga za pojedinim primjercima i malim kategorijama uzoraka bila je dovoljno jednostavna, ali Dorr se pitao postoji li način da se podaci iskoriste za izvlačenje zaključaka o tisućama uzoraka. "Što možete učiniti s tim podacima?", Sjeća se pitajući se. Čovjek po imenu Adam Metallo ubrzo je dao uvjerljiv odgovor.

Metallo, službenik ureda za digitalizaciju Smithsonianovog programa, prisustvovao je konferenciji na kojoj je tehnološki gigant NVIDIA - dragi PC igrači svugdje - prikazao grafičke procesorske jedinice nove generacije ili GPU-ove. Metallo je tamo tražio načine kako unaprijediti Smithsonianove 3D digitalne mogućnosti prikazivanja, ali to je njegova pozornost privuklo i obuzelo uglavnom nepovezani dio informacija. Pored stvaranja dinamičnih, visoko vjernih 3D vizuala, rečeno mu je da NVIDIA-ini GPU-ovi su dobro prilagođeni velikoj analizi podataka. Konkretno, poboljšani GPU-ovi bili su upravo ono što je potrebno za intenzivno digitalno prepoznavanje uzoraka; mnogi algoritmi strojnog učenja optimizirani su za NVIDIA platformu.

Metallo je odmah bio zaintrigiran. Ova tehnologija „dubokog učenja“, već korištena u nišnim sektorima poput razvoja automobila za samostalno vođenje automobila i medicinske radiologije, imala je veliki potencijal za svijet muzeja - što, kako Metallo ističe, predstavlja „najveći i najstariji skup podataka kojima sada imamo pristup do."

"Što znači za velike skupove podataka koje stvaramo na Smithsonianovoj digitalizaciji?" Metallo je želio znati. Njegovo se pitanje savršeno odražavalo na pitanje Laurencea Dorra, a kad su se to dvoje povezali, iskre su počele letjeti. "Kolekcija botanike bila je jedna od najvećih kolekcija na kojoj smo nedavno radili", prisjeća se Metallo. Suradnja je sama predložila.

Dok mnogi oblici strojnog učenja zahtijevaju da istraživači označe ključne matematičke markere u slikama koje se analiziraju - mukotrpan proces koji znači držanje za računalo - moderni algoritmi dubokog učenja mogu se naučiti koje markere treba tražiti na poslu, štedeći vrijeme i otvaranje vrata za veće istrage. Unatoč tome, pisanje Smithsonian-ovog specifičnog programa dubokog učenja i njegovo kalibriranje za diskretna pitanja botaničkih istraživanja bilo je lukavo poslovanje - Dorr i Metallo trebali su pomoć istraživača podataka kako bi svoju viziju pretvorili u stvarnost.

Znanstvenici s podacima sastavljaju uzorke za treniranje neuronske mreže tijekom čega se Paul Frandsen sjeća Znanstvenici s podacima sastavljaju uzorke za trening za neurološku mrežu tijekom čega se Paul Frandsen sjeća kao "hladnog siječanjskog dana". (Nacionalni prirodoslovni muzej)

Jedan od stručnjaka koje su doveli na brod bio je znanstvenik Smithsonian istraživanja podataka Paul Frandsen, koji je odmah prepoznao potencijal u stvaranju neuronske mreže NVIDIA GPU-a koja će se donijeti u kolekciji botanike. Za Frandsena je ovaj projekt simbolizirao ključni prvi korak niz prekrasan i neistražen put. Ubrzo, kaže, "počet ćemo tražiti morfološke obrasce na globalnoj razini i moći ćemo odgovoriti na ova zaista velika pitanja koja bi tradicionalno trajala tisuće ili milijune ljudskih sati pregledavajući literaturu i razvrstavanje stvari. Moći ćemo koristiti algoritme da nam pomognu da nađemo te obrasce i saznamo više o svijetu. "

Upravo objavljeni nalazi nevjerojatan su dokaz koncepta. Generirana od tima od devet članova, na čelu s istraživačima botanikom Ericom Schuettpelzom i znanstvenicima podataka Paulom Frandsenom i Rebecca Dikow, cilj je istraživanja odgovoriti na dva opsežna pitanja o strojnom učenju i herbariju. Prvi je način na koji efikasna istrenirana neuronska mreža može biti u razvrstavanju uzoraka obojenih živom od nezaštićenih. Drugi, naglasak rada, jest koliko takva mreža može biti učinkovita u razlikovanju članova dviju vrlo sličnih biljnih obitelji - naime, papramskih obitelji Lycopodiaceae i Selaginellaceae .

Prvo ispitivanje zahtijevalo je da tim unaprijed prođe kroz tisuće uzoraka, definitivno primjećujući koji su vidno kontaminirani živom (ostatak zastarjele tehnike botaničkog očuvanja). Htjeli su biti sigurni da znaju sa sto posto sigurnošću koja je obojena, a koja nisu - u suprotnom, procjena točnosti programa ne bi bila moguća. Tim je trešnje pokupio gotovo 8.000 slika čistih uzoraka i još 8.000 obojenih uzoraka s kojima će se osposobiti i testirati računalo. Kad su završili s ugađanjem parametara neuronske mreže i povukli svu ljudsku pomoć, algoritam je s 90 postotnom točnošću kategorizirao uzorke koje nikada ranije nije vidio. Ako su većina dvosmislenih uzoraka - npr. Oni kod kojih je bojanje bilo minimalno i / ili vrlo slabo - izbacili, ta se brojka popela na 94 posto.

Ovaj rezultat podrazumijeva da bi softver dubokog učenja uskoro mogao pomoći botaničarima i drugim znanstvenicima da izbjegnu gubljenje vremena na dosadne zadatke sortiranja. "Problem nije u tome što čovjek ne može utvrditi je li uzorak obojen živom ili ne", pojašnjava Metallo, već da je "teško ručno riješiti i utvrditi gdje zagađenje postoji", a nije razumno učinite to sa stajališta upravljanja vremenom. Srećom, strojno učenje može pretvoriti veliki vremenski ponor u najviše nekoliko dana brze automatizirane analize.

Prenošenje uzoraka jedan po jedan zahtijeva puno energije i otežava donošenje zaključaka velikih razmjera. Sada velika analiza podataka pruža muzejima nove načine na koje mogu pristupiti svojim kolekcijama. Prenošenje uzoraka jedan po jedan zahtijeva puno energije i otežava donošenje zaključaka velikih razmjera. Sada velika analiza podataka pruža muzejima nove načine na koje mogu pristupiti svojim kolekcijama. (Arbold Arboretum)

Dio studije o diskriminaciji vrsta još je uzbudljiviji. Istraživači su obučili i testirali neuronsku mrežu s otprilike 9.300 uzoraka mahovine i 9.100 uzoraka spikemosa. Kao i kod eksperimenta bojenja, oko 70 posto tih uzoraka korišteno je za početnu kalibraciju, 20 posto ih se koristilo za pročišćavanje, a konačnih 10 posto korišteno je za formalno ocjenjivanje točnosti. Jednom kada je optimiziran kôd, stopa uspjeha računala u razlikovanju dviju obitelji bila je 96 posto - i gotovo savršenih 99 posto ako su izostavljeni najgrublji uzorci.

Jednog dana Frandsen nagađa da bi ovakvi programi mogli podnijeti preliminarnu kategorizaciju uzoraka u muzejima širom svijeta. "Ni na koji način ne mislim da će ovi algoritmi učiniti bilo kakvu zamjenu kustosa", brzo je napomenuo, "ali umjesto toga, mislim da oni mogu pomoći kustosima i osobama uključenim u sistematiku da budu produktivniji, tako da mogu puno raditi svoj posao brže."

Uspjeh neuronske mreže u ovom istraživanju također otvara put brzoj provjeri znanstvenih hipoteza kroz ogromne zbirke. Dorr u nalazima tima vidi mogućnost provođenja opsežnih morfoloških usporedbi digitaliziranih uzoraka - usporedbe koje bi mogle dovesti do značajnih znanstvenih proboja.

To ne znači da će duboko učenje biti srebrni metak u istraživanjima. Mark Algee-Hewitt iz Stanforda ističe da je „gotovo nemoguće rekonstruirati zašto i kako neuronska mreža donosi svoje odluke“ nakon što je ona uvjetovana; Odluke koje se prepuštaju računalnim programima trebaju uvijek biti jednostavno i provjerljivo, ako se njima treba vjerovati.

"Očito", kaže Dorr, autonomni računalni program "neće testirati genetske veze, takve stvari" - barem bilo kada u skoroj budućnosti. "Ali možemo početi učiti o raspodjeli karakteristika po zemljopisnoj regiji ili taksonomskoj jedinici. A to će biti stvarno moćno. "

Više od ičega, ovo je istraživanje početna točka. Sada je jasno da tehnologija dubokog učenja obećava znanstvenicima i drugim znanstvenicima širom svijeta, kao i radoznaloj javnosti za koju proizvode znanje. Ostaje strog daljnji rad.

"Ovo je mali korak", kaže Frandsen, "ali to je korak koji nam zaista govori da ove tehnike mogu djelovati na digitaliziranim muzejskim primjercima. Uzbuđeni smo što ćemo u narednih nekoliko mjeseci uspostaviti još nekoliko projekata, pokušati još malo testirati njegove granice. "

Kako bi umjetna inteligencija mogla revolucionarati istraživanja arhivskog muzeja