https://frosthead.com

Kako Google čuva vašu neželjenu poštu u pristigloj pošti

Iza svega Googleovog krčenja informacija - od pronalaženja rezultata pretraživanja koji su najvažniji, do čitanja i zadržavanja kartica na vašoj e-pošti - nalazi se zanimljiva matematika. A nedavno je Javier Tordable, softverski inženjer, održao prezentaciju na kojoj je otvorio prozor u lukav Google svijet.

Započnimo s Gmailom. Ponekad dobijete neželjenu poštu, ali Gmail je prilično dobar kad shvati da kada dopisnik pokušava natjerati vas da investirate u nigerijskog princa, vjerojatno ne želite taj komad pošte u vašoj pristigloj pošti. Kako se to zna? Prvi korak: uvježbajte stroj. Drugi korak: stavite ga na posao.

To se naziva strojnim učenjem, a Google to radi mnogo. U prvom koraku, morate učiniti ono što računalni znanstvenici nazivaju „karakterizirati instancu“. U matematičkom govoru to znači:

Općenito, karakteristike instancije mogu se smatrati elementima u vektoru dvodimenzionalnog euklidskog prostora za veliki n (100-1000 dimenzija je normalno, 1M-10M nije nečuveno)

Ali evo kako razmisliti o tome ako ste prestali s matematikom nakon Calc 1. Gmail može izvući nekoliko ključnih informacija iz bilo koje određene adrese e-pošte. Koliko je dugačko? Koliko velikih slova postoji? Je li to od nekoga od koga ste ranije dobili e-poštu? Ne želite da informacije potrebne za donošenje odluke budu previše teške za dobivanje ili rješavanje jer će to usporiti i smanjiti točnost vašeg računala. Tako Google crta crtu na temelju onoga što zna o neželjenoj pošti. E-poruke koje prođu padaju s jedne strane linije, a neželjene poruke s druge.

Više matematike govori:

Jednostavni klasifikacijski model je hiperplana u prostoru karakteristika. Primjeri podataka na jednoj strani hiperplane klasificirani su kao valjane poruke e-pošte, a instance na drugoj strani klasificirane su kao neželjena pošta.

Što je s pretraživanjem glasa - naziva se i automatizirano prepoznavanje govora ili ASR? Kao i strojno učenje, ASR se događa u dva dijela: obrađuje zvuk koji dolazi i shvaća što govorite. Prvi dio uključuje Fourierove transformacije koje izoliraju važne bitove koje računalo može prevesti. Drugi dio je modeliranje govora koristeći se "skrivenim Markovim modelom".

U ovom modelu stanja su slova poruke, a slijed događaja je zvučni signal. Viterbi algoritam može se koristiti za dobivanje slijeda stanja najveće vjerojatnosti.

Google bi volio da prepoznavanje glasa bude bolje i lakše. U ovom slučaju, grupa Googleovih pištolja piše:

Cilj Googlea jest omogućiti govorni pristup sveprisutnijim. Željeli bismo dopustiti korisniku da odabere - trebali bi moći shvatiti zdravo za gotovo da je govorna interakcija uvijek opcija. Postizanje sveprisutnosti zahtijeva dvije stvari: dostupnost (tj. Ugrađena u svaku moguću interakciju gdje unos ili izlaz govora mogu imati smisla) i performanse (tj. Djeluju tako dobro da modalitet interakciji ne stvara trenje).

Još jedno područje u kojem Google koristi matematiku nalazi se na njihovim mapama - u središtu pažnje nedavno nakon što je Apple u njihovom sustavu mapiranja predstavio značajne kritike. Srce Google Maps je osnovna teorija grafova - matematika prelaska s jednog mjesta na drugo tijekom putovanja na najkraćem udaljenost. Ali, naravno, to je složenije od toga. Uporno piše, "Jedan jedinstveni problem je što grafovi korišteni na Google kartama sadrže milijune čvorova, ali algoritmi se moraju izvoditi u milisekundama."

Google nam neće reći kako to rade. Inače Apple ne bi naišao na svoj problem, ali osnove uključuju miješanje Dijsktra algoritma (vjerojatno najčešće korišteni algoritam pretraživanja grafova). Nekoliko godina unatrag, računarski znanstvenici sa Sveučilišta u Karlsruheu opisali su novi način za rangiranje upita za dobivanje mnogo bržih rezultata. Napisali su:

Naš algoritam prerađuje osmeroznamenkasti broj čvorova potrebnih za karte SAD-a ili zapadne Europe u nekoliko sati koristeći linearni prostor. Najkraći (tj. Najbrži) upiti za put tada trebaju oko osam milisekundi da biste proizveli točno najkraće staze. To je oko 2000 puta brže od korištenja algoritma Dijkstra.

Tordable prolazi kroz brojne druge matematičke alate koje koristi Google, uključujući one uključene u Google knjige, Pretraživanje slika, Analytics, YouTube, Google Translate, Google Earth i Picasa. Ovdje možete vidjeti cijeli set dijapozitiva.

Više sa Smithsonian.com:

Smithsonian dobiva Google karte
Pratite trendove hrane pomoću Google knjiga

Kako Google čuva vašu neželjenu poštu u pristigloj pošti