Kako rade tražilice?

Tražilice su u osnovi računalni algoritmi koji korisnicima pomažu pronaći određene informacije koje traže. Različiti rade na različite specifične načine, ali svi koriste iste osnovne principe.

Prva stvar koju tražilice moraju učiniti da bi funkcionirale je napraviti lokalnu bazu podataka, u osnovi, Interneta. Ranije verzije samo su indeksirale ključne riječi i naslove stranica, ali suvremene indeksiraju sav tekst na svakoj stranici, kao i veliki broj drugih podataka o odnosu te stranice prema drugim stranicama, au nekim slučajevima i cijeli ili dio medija dostupno i na stranici. Tražilice moraju indeksirati sve te informacije kako bi mogle učinkovito pretraživati ​​po njima, umjesto da moraju trčati po Internetu svaki put kada se pošalje upit za pretraživanje.

Tražilice stvaraju te baze podataka izvodeći povremene indeksiranje interneta. Rane verzije često su im zahtijevale slanje stranica kako bi ih indeksirali, ali sada se većina stranica nalazi slijedeći veze s drugih stranica. Ono što se naziva robotima ili paucima, računalni programi napravljeni da indeksiraju stranice, prelijeću sa stranice na stranicu, bilježe sve podatke na stranici i prate svaku poveznicu na nove stranice. Različite tražilice osvježavaju svoje indekse u različitim intervalima, ovisno o tome koliko pauka stalno puzi i koliko brzo ti pauci puze, pri čemu neki probijaju internet svaki dan ili dva, a drugi samo povremeno osvježavaju svaki tjedan ili mjesec.

Dok pauk prolazi kroz ove stranice, bilježi riječi koje pronađe na stranicama. Bilježi koliko se puta svaka riječ pojavljuje, jesu li riječi ponderirane na određene načine, možda na temelju veličine, lokacije ili HTML oznake, i odlučuje koliko su riječi relevantne na temelju veza koje dolaze na stranicu, i u općem kontekstu stranice.

Tražilice tada moraju odmjeriti vrijednost svake stranice i vrijednost svake stranice za riječi koje se na njoj pojavljuju. Ovo je najzahtjevniji dio, ali i najvažniji. Na najjednostavnijoj razini mogao bi jednostavno pratiti svaku riječ na stranici i zabilježiti tu stranicu kao relevantnu za pretraživanja s tom ključnom riječi. To, međutim, ne bi bilo dobro za većinu korisnika, jer ono što se želi je najrelevantnija stranica za njihov upit za pretraživanje. Dakle, različiti motori dolaze s različitim načinima ponderiranja važnosti.

Algoritmi koje razne tražilice koriste dobro su zaštićeni kako bi spriječili ljude da posebno kreiraju stranice kako bi dobili bolje rangiranje ili barem ograničili stupanj do kojeg to mogu učiniti. Ova razlika je razlog zašto različiti motori daju različite rezultate za iste pojmove. Google bi mogao utvrditi da je jedna stranica najbolji rezultat za pojam za pretraživanje, a Ask bi mogao utvrditi da ista stranica nije ni među prvih 50. Sve se to temelji samo na tome kako vrednuju ulazne i odlazne veze, gustoći ključnih riječi koje smatraju važnim kako vrednuju različito postavljanje riječi i bilo koji broj manjih čimbenika.
Najnoviji trend u tražilicama, a vjerojatno i budućnost pretraživanja općenito, je odmak od pretraživanja temeljenih na ključnim riječima na pretraživanja temeljena na konceptu. U ovom novom obliku pretraživanja, umjesto da ograničava pretragu na ključne riječi koje tražitelj unosi, program pokušava shvatiti što te ključne riječi znače, tako da može predložiti stranice koje možda ne uključuju točnu riječ, ali su unatoč tome aktualne za traži. Ovo je još uvijek područje u razvoju, ali zasad se čini da ima puno potencijala za povećanje relevantnosti pretraživanja, čineći web još lakšim mjestom za pronalaženje točno onoga što tražite.