Od rođenja modernih romana na engleskom jeziku 1700-ih, muški i ženski likovi od Paula Atreidesa do Elizabeth Bennet smijali su se, grlili, osjećali i glumili kroz svoje stranice. Nova studija provedena korištenjem algoritma strojnog učenja ponudila je svježu perspektivu na njihovu povijest. "Transformacija roda u fantastiku na engleskom jeziku", objavljenog ovog tjedna u časopisu Cultural Analytics, analizirala je prezentaciju roda u više od 100.000 romana, pronalazeći paradoks kada su u pitanju romani 20. stoljeća: kao krute rodne uloge činilo se da se raspada, što ukazuje na veću jednakost među spolovima, broj ženskih likova - i udio žena autorica - smanjio se.
Izradio autor studije Ted Underwood, profesor engleskog jezika i informacijskih znanosti na Sveučilištu Illinois, i njegov koautor autor informatike David Bamman sa Kalifornijskog sveučilišta u Berkeleyju, algoritam je analizirao likove i autore 104 000 romana - daleko više od vas čitati ću u životu. Underwood i Bamman izvorno su izgradili algoritam prethodne studije o karakterizaciji: pridružila im se u trenutnoj studiji koautorica Sabrina Lee, studentica poslijediplomske studije na Sveučilištu Illinois. Romani su odabrani prvenstveno iz digitalne biblioteke HathiTrust i predstavljali su izbor bestselera u razdoblju od 1703. do 2009. Na popisu su popularni naslovi poput Ponosa i predrasuda, Dune i neki od romana Raymonda Chandlera.
Gledajući podatke i dijeleći ih prema vremenu, istraživači su mogli vidjeti trendove u određenim razdobljima: na primjer, između 1800. i 1970., na primjer, "stalni pad" udjela žena autorica - s oko 50 posto na manje više od 25 posto. U istom su razdoblju zabilježili pad broja imenovanih ženskih likova. Ti se trendovi počinju obrnuti u drugom dijelu 20. stoljeća. Tijekom studije dramatični su i brzi pomaci u riječima koje se koriste za karakterizaciju roda - kao i smanjenje broja riječi posebno rođenih.
Mnoge od tih riječi nisu bile izričito rodno povezane, poput "srce" ili "kuća", iako potencijalno rodne riječi poput "suknje" ili "brkova" nisu bile isključene. Na primjer, u 1800-ima je glagol "osjetio" bio više povezan sa ženama, dok je glagol "dobiti" češće povezan s muškarcima. Ovi su trendovi vremenom opadali, sve do 1900-ih, druge su riječi bile izrazitije povezane s muškarcima i ženama. U 1900-ima, riječi vezane za veselje postale su više povezane sa ženama i došlo je do odgovarajućeg pada upotrebe tih riječi u odnosu na muškarce. "Žene se smiješe i smiju se", pišu autori, "ali muškarci iz sredine stoljeća, naizgled, mogu samo da se nasmijeju i nasmiju." Slično tome, u 19. stoljeću postoji mnogo više rasprava o osjećajima, isprva uglavnom u vezi sa ženskim likovima. U 20. stoljeću postoji mnogo više o tijelima i odjeći - na primjer, muškarci iz sredine stoljeća stalno stavljaju stvari u džepove ili ih vade.
To je rezultat koji pokazuje potrebu za pristupima strojnog učenja, Underwood kaže: "Realnost je da kultura ne daje jasne definicije što je spol ili što je uopće književni žanr", kaže on. "A strojno učenje omogućuje nam da radimo s nejasnim konceptima."
Metoda se češće koristi za rad s bankarskim podacima ili za pomoć samokontroliranim automobilima da ostanu na sigurnom, pa se može činiti neobičnim za analizu romana. Ali Underwood i drugi znanstvenici na području digitalnih humanističkih znanosti vide veliki potencijal.
Seth Long, profesor engleskog jezika na Sveučilištu u Nebraski, koji također radi na području digitalnih humanističkih znanosti, kaže da ovi neočekivani rezultati pokazuju snagu velikih podataka za stipendije humanističkih znanosti. "Za statističko modeliranje bit će potreban sasvim drugačiji način razumijevanja književne povijesti", kaže on. Algoritam je prazna ploča do davanja informacija, ali kad jednom ima te podatke, iz njega se mogu izvući stvari koje ljudi ne mogu. U ovom slučaju to prekida znanstvene pretpostavke o tome kako bi povijest književnosti trebala pratiti s poviješću ženskog društvenog napretka.
"Kada vidite [studiju] pored tradicionalnijih književno povijesnih projekata, možete vidjeti veze koje možda drugačije niste vidjeli", kaže Claire Jarvis, profesorica engleskog jezika sa Sveučilišta Stanford. To potvrđuje kvantitativno neke "sitnice" koje je imala na putu književnosti. Ovo uključuje smanjenje udjela žena autorica tijekom čitavog proučenog razdoblja, što je iznenadilo Underwooda.
"Očekivala bih da ću ostvariti određeni napredak, samo u pogledu jednakosti zastupljenosti žena u fikciji", kaže Underwood. „Možda nije puno napretka, ali neki napredak. A mi stvarno ne vidimo takve. "
Prvi romani koji koriste moderni engleski jezik više su gledani kao zabava, a manje kao legitimno književno nastojanje. Ali "kako roman postaje sve respektabilniji, " kaže Jarvis, "postaje manje povezan sa ženskim autorstvom." Drugim riječima: muškarci su se upisivali u pisanje romana kad je to počelo izgledati kao "ozbiljna" potraga.
Iako su povjesničari književnosti prije izvjesno govorili o odstupanju žena od romana, kaže Underwood, nitko nije uradio vrstu opsežnog rada koji bi pokazao kontinuirane trendove. Tu dolazi do strojnog učenja.
Lee kaže, "Znanstvenici za književnost, svjesni smo da postoje tišine" - to jest mjesta u književnoj povijesti u kojima knjige nisu pisane. Još jedna tišina koju smatra važnom je sve veća odsutnost imenovanih ženskih likova u studiranim romanima. Ljubiteljica je romana pseudonimne talijanske autorice Elene Ferrante i kaže da karakterizacija ženskog prijateljstva u Ferranteovim knjigama naglašava "tišinu" ženskog prijateljstva u fikciji drugdje, iz prošlosti i sadašnjosti. Za nju, studija podvlači istu stvar i naglašava "važnost djela sa ženama koje vide žene." Odsustvo žena iz romana "tiho je oblikovalo način na koji se osjećamo prema povijesti književnosti", kaže Underwood.
Autori napominju da njihova studija ne pokriva sve romane napisane u tom vremenskom razdoblju i nedostaje im reprezentacija u žanrovskoj fikciji, poput romanskih romana i detektivske fikcije, koja je postala popularna u 20. stoljeću. No, istraživači su poduzeli korake da isprave svoje pristranosti testirajući svoju bazu podataka u odnosu na druge baze podataka. Knjige koje su odabrale predstavljaju literaturu koja je akademskim knjižnicama smatrana važnom, a autori napominju da je potrebno još raditi na žanrovskoj prozi. "Književni rod može se različito konstruirati u različitim žanrovima ili u različitim dijelovima književnog polja", pišu autori.
Metode strojnog učenja nude nov način gledanja na tišine i prisutnosti prošlosti - začudo, kroz objektiv predviđanja. Općenito, algoritmi se koriste za predviđanje ili otkrivanje obrazaca na temelju skupa informacija, ali Long kaže da je njihova upotreba u povijesti ta što mogu otkriti dugoročne trendove u prošlosti, kao i sadašnjosti ili budućnosti. "Mislim da je to tako moćan način provjere vlastitih interpretacija", kaže on.