Godine 1984. Nacionalna zaklada za biomedicinska istraživanja pokrenula je besplatnu internetsku bazu podataka koja sadrži preko 283.000 proteinskih sekvenci. Danas Izvor informacija o proteinima omogućuje znanstvenicima diljem svijeta uzimanje nepoznatog proteina, uspoređivanje s tisućama poznatih proteina u bazi podataka i određivanje načina na koji su slični i različiti. Iz tih podataka se može brzo i točno zaključiti evolucijska povijest proteina i njegov odnos prema različitim oblicima života.
Skromno podrijetlo ove ogromne internetske baze podataka započinje mnogo prije interneta. Sve je počelo Atlasom redoslijeda i strukture proteina, tiskanom knjigom iz 1965. godine koja sadrži 65 tada poznatih proteinskih sekvenci, a sastavila je žena po imenu Margaret Dayhoff. Da bi stvorio svoj Atlas, Dayhoff je primijenio vrhunske računalne tehnologije kako bi pronašao rješenja bioloških pitanja, pomažući u pokretanju novog polja koje danas nazivamo bioinformatikom. Dayhoff je izvorno kemičar iskoristio nove i evoluirajuće tehnologije računanja poslije Drugog svjetskog rata u pionirske alate koje bi kemičari, biolozi i astronomi mogli koristiti u interdisciplinarnom istraživanju podrijetla života na Zemlji.
Dayhoff (tada Margaret Oakley) rođena je u Philadelphiji 11. ožujka 1925. godine Ruth Clark, učiteljica matematike u srednjoj školi, i Kenneth Oakley, vlasnik malog poduzeća. U dobi od deset godina njezina se obitelj preselila u New York City. Tamo je pohađala javne škole, s vremenom postala valedictorian iz Bayside Higha 1942. Pohađala je Washington Square College njujorškog sveučilišta na stipendiji, diplomirajući magna cum laude iz matematike samo tri godine kasnije 1945. godine.
Iste godine Dayhoff je upisao Sveučilište Columbia kako bi doktorirao kvantnu kemiju pod mentorstvom istaknutog kemičara i istraživača operacija Drugog svjetskog rata Georgea Kimballa. Njeno prihvaćanje za to je vrijeme bila rijetkost. Nakon Drugog svjetskog rata, više je muškaraca ušlo u znanosti, a kemija je još više dominirala od muškaraca nego u prethodnom desetljeću, a samo pet posto doktora znanosti kemije prelazilo je u žene, što je pad od osam posto.
Za vrijeme Dayhoffa na sveučilištu, Columbia je bila žarište za računalnu tehnologiju. Pohvalio se nekim od prvih računalnih laboratorija u SAD-u, a 1945. postao dom znanstvenog laboratorija IBM Watson pod vodstvom astronoma WJ Eckerta. Watson laboratorij najprije je služio kao računalni centar za saveznike u posljednjim mjesecima Drugog svjetskog rata. Nakon rata, postalo je mjesto za razvoj nekih prvih super računala, uključujući elektronički kalkulator selektivne sekvence (SSEC), koji je Eckert kasnije koristio za izračun lunarnih orbita za misije Apolona.
Uz ovu tehnologiju na dohvat ruke, Dayhoff je svoje zanimanje za kemiju kombinirao s računalom pomoću strojeva s perforiranim karticama - u osnovi ranih digitalnih računala. Strojevi su dopuštali Dayhoffu da automatizira njezine proračune, pohranjujući algoritam na jedan skup kartica i podatke na drugi. Pomoću stroja mogla je brže i preciznije obraditi proračune nego ručno.
Dayhoff je poseban predmet interesa bio policiklički organski spojevi, koji su molekule koje se sastoje od tri ili više atoma spojenih u bliski prsten. Koristila je strojeve s bušenim karticama za obavljanje velikog broja izračuna na rezonantnim energijama molekula (razlika između potencijalne energije molekule određenog stanja i prosječnog stanja) kako bi odredila vjerojatnost molekularnog povezivanja i udaljenosti veza.
Dayhoff je diplomirala u kvantnoj kemiji sa samo tri godine. Istraživanje koje je poduzela kao diplomski student objavljeno je, s Kimballom kao koautorstvom, 1949. godine u časopisu Chemical Chemical Physics pod jednostavnim naslovom Calculation Card Calculation of Resonance Energy.
Također se 1948. Dayhoff oženio Edwardom Dayhoffom, studentom eksperimentalne fizike, kojeg je upoznala u Columbiji. Godine 1952., par se preselio u Washington, DC, gdje je Edward zauzeo mjesto u Nacionalnom uredu za standarde, a Dayhoff je rodila prvu od dvije kćeri, Ruth. Dayhoff je ubrzo odustao od istraživanja kako bi postao mama koja ostaje kod kuće Ruth i njezine mlađe kćeri Judith, osim dvogodišnje postdoktorske pozicije na University of Maryland.
Kad se 1962. vratila istraživanjima i počela prijavljivati za dodjelu bespovratnih sredstava za financiranje svog rada, dočekala ju je šok. Nacionalni zavodi za zdravstvo odbili su zahtjev za dodjelu bespovratnih sredstava u kojem je Dayhoff naveden kao glavni istražitelj, uz objašnjenje da je „[Dayhoff] već neko vrijeme izvan stvarno prisne veze ... sa ovim složenim i brzo napredujućim područjem“, kako piše povjesničar Bruno Strasser njegova nadolazeća knjiga Collecting Exper Experts: Making Big Data Biology . Ovakav uspon uzbrdica za žene koje su odmorile djecu kako bi odgajale djecu samo je jedan od načina na koji su znanstvene institucije ometale - i dalje ometaju - napredak žena.
Unatoč nedostatku podrške NIH-a, Dayhoff će se spremati u najuspješnije desetljeće u karijeri. 1960. godine prihvatila je sudbonosni poziv Roberta Ledleya, pionirskog biofizičara, kojeg je upoznala preko supruga, da mu se pridruži u Nacionalnoj zakladi za biomedicinska istraživanja u Silver Springu, Maryland. Ledley je znao da će Dayhoffove računalne vještine biti presudne za temeljni cilj kombiniranja područja računarstva, biologije i medicine. Ona će 21 godina biti njegova pomoćnica ravnatelja.
Jednom u Marylandu, Dayhoff se besplatno koristio za potpuno novi IBM 7090 mainframe na Sveučilištu Georgetown. IBM sustav dizajniran je za rukovanje složenim aplikacijama, s računarskim brzinama šest puta bržim od prethodnih modela. Ova brzina postignuta je zamjenom sporije, glomaznije tehnologije vakuumskih cijevi bržim, učinkovitijim tranzistorima (komponente koje proizvode računala od 1 i 0). Pomoću glavnog okvira, Dayhoff i Ledley počeli su tražiti i uspoređivati peptidne sekvence s programima FORTRAN koje su sami napisali u pokušaju da sastave djelomične sekvence u potpuni protein.
Operacijska konzola IBM 7090 u NASA Ames istraživačkom centru 1961. godine, s dvije banke pogona magnetske vrpce IBM 729. (NASA)Dayhoffova i Ledleyjeva predanost primjeni računalnih analiza u biologiji i kemiji bila je neobična. "Kultura statističke analize, a kamoli digitalno računanje, bila je većini [biokemičara] potpuno strana", objašnjava Strasser u intervjuu za Smithsonian.com . „Neki su se čak ponosili time što nisu„ teoretičari “, pa su tako shvatili analizu podataka koristeći matematičke modele.“
Međutim, jedna znanstvena disciplina u kojoj je Dayhoffov kompjuterski pamet bila cijenjena, bila je astronomija. Zainteresiranost za računanje dijelom je zahvaljujući WJ Eckhartu, koji je 1940. godine upotrijebio IBM uređaje sa bušenim karticama za predviđanje planetarnih orbita. I 1960-ih je američki interes za istraživanje svemira bio u punom jeku, što je značilo financiranje NASA-e. Dayhoff je na sveučilištu u Marylandu upoznao spektroskopsku osobu Ellis Lippincott koja ju je uvela u šestogodišnju suradnju s Carlom Saganom na Harvardu 1961. Njih troje razvili su termodinamičke modele kemijskog sastava materije, a Dayhoff je osmislio računalni program koji je mogao izračunati ravnotežne koncentracije plinova u planetarnim atmosferama.
Pomoću Dayhoffovog programa, oni, Lippincott i Sagan mogli su odabrati element koji će analizirati, omogućujući im da istražuju razne atmosferske sastave. U konačnici su razvili atmosferske modele za Veneru, Jupiter, Mars, pa čak i iskonsku atmosferu na Zemlji.
Tijekom istraživanja neba, Dayhoff se također pozabavio pitanjem koje su istraživali istraživači barem od pedesetih godina prošlog stoljeća: koja je funkcija proteina? Sekvenciranje proteina bilo je sredstvo za dobivanje odgovora, ali sekvencioniranje pojedinih proteina bilo je vrlo neučinkovito. Dayhoff i Ledley zauzeli su se drugačije. Umjesto da se izolirano analiziraju proteini, uspoređivali su bjelančevine dobivene iz različitih biljnih i životinjskih vrsta. "Uspoređujući sekvence istog proteina kod različitih vrsta, moglo se promatrati koji su dijelovi sekvence uvijek identični kod svih vrsta, što je dobar pokazatelj da je ovaj dio sekvence presudan za dobro proteina", kaže Strasser.
Dayhoff je istraživao dublje gledajući kako proteinska zajednička povijest. Analizirala je ne samo dijelove koji su bili isti kod vrsta, već i njihove varijacije. "Oni su uzeli ove razlike kao mjerilo evolucijske udaljenosti između vrsta, što im je omogućilo da rekonstruiraju filogenetska stabla", objašnjava Strasser.
Dayhoff, uvijek spreman iskoristiti snagu nove tehnologije, razvio je računalne metode za određivanje proteina sekvence. Vodila je računalnu analizu proteina u najrazličitijim vrstama, od gljivice candida do kita. Zatim je iskoristila njihove razlike kako bi utvrdila odnose njihovih predaka. Dayhoff je 1966. godine uz pomoć Richarda Ecka stvorio prvu rekonstrukciju filogenetskog stabla.
U američkom znanstvenom članku iz 1969., „Računalna analiza evolucije proteina“, Dayhoff je javnosti predstavio jedno od tih stabala zajedno sa svojim istraživanjima koristeći računala za sekvencioniranje proteina. "Svaki uspostavljeni niz proteina, svaki evolucijski mehanizam koji je osvijetljen, svaka velika inovacija filogenetske povijesti koja se otkriva poboljšat će naše razumijevanje povijesti života", napisala je. Pokušala je pokazati životnoj zajednici potencijal računalnih modela.
Njezin je sljedeći cilj bio prikupiti sve poznate proteine na jednom mjestu gdje bi istraživači mogli pronaći sekvence i usporediti ih s drugima. Za razliku od današnjeg doba, kada je lako pozvati izvore u elektroničku bazu podataka s samo ključnom riječju, Dayhoff je morao pretraživati fizičke dnevnike kako bi pronašao proteine koje je tražio. U mnogim slučajevima to je značilo provjeru rada kolega istraživača radi pogrešaka. Čak i uz pomoć računala, posao prikupljanja i katalogiziranja sekvenci zahtijevao je mnogo vremena i pronicljiv znanstveni pogled.
Nisu svi vidjeli vrijednost u onome što radi. Drugim istraživačima, Dayhoff je rad više sličio zbirci i katalogizaciji prirodne povijesti 19. stoljeća, a ne eksperimentalnom radu znanstvenika 20. stoljeća. "Prikupljanje, uspoređivanje i klasificiranje prirodnih stvari činilo se staromodnim mnogim eksperimentalnim biolozima u drugoj polovici 20. stoljeća", kaže Stasser. On govori o Dayhoffu kao "autsajderu". "Ona je doprinijela polju koje ne postoji i na taj način nije imalo profesionalno priznanje", kaže on.
Godine 1965. Dayhoff je prvi put objavila svoju zbirku od 65 poznatih proteina u Atlasu redoslijeda i strukture proteina, u tiskanoj verziji njene baze podataka. Podaci su se na kraju premjestili na magnetsku vrpcu, a sada žive online gdje istraživači i dalje koriste njene podatke kako bi pronašli tisuće više proteina. Ostale biomedicinske baze podataka pridružile su se sukobu, uključujući Protein Data Bank, kolaborativnu kolekciju proteina i nukleinskih kiselina pokrenuta 1971., i GenBank, bazu podataka genetskih sekvenci pokrenuta 1982. Dayhoff je započeo znanstvenu revoluciju.
"Danas svaka pojedina publikacija u eksperimentalnoj biologiji sadrži kombinaciju novih eksperimentalnih podataka i zaključaka izvedenih iz usporedbe s drugim podacima dostupnim u javnoj bazi podataka, pristup koji je Dayhoff započeo prije pola stoljeća", kaže Strasser.
Kako je bioinformatika rasla, zadaće prikupljanja i računanja uglavnom su padale na žene. Dayhoff-ove suradnice u Atlasu bile su sve žene osim Ledleyja. Kao i žene "računala" NASA-e 1960-ih i žene kodeksi drugog svjetskog rata, i ove su žene ubrzo gurnute na marginu znanstvene prakse. Pozivajući se na "djevojke ENIAC" koje su programirale prvo digitalno, opće računalno računalo, povjesničarka računalstva Jennifer Light piše da su "žene koje su se bavile poslom bez presedana" upravo u granicama upravo takvih klasifikacija slabog statusa.
U svojoj biografskoj skici o Dayhoffu, Lois T. Hunt, koja je s njom radila na Atlasu, napisala je da je Dayhoff vjerovao da će joj istraga Zemljine iskonske atmosfere dati "spojeve potrebne za stvaranje života". To je možda čak i više od toga računarstvo, ono je što povezuje razdvojene dijelove Dayhoffovog znanstvenog istraživanja. Od sićušnih proteina do goleme atmosfere, Dayhoff je tragao za tajnama nastanka života na ovoj planeti. Iako ih nije otključala, dala je suvremenoj znanosti alate i metode kako bi nastavila potragu.