Što je Web Crawler?

Web alat za indeksiranje je relativno jednostavan automatizirani program, ili skripta, koji metodično skenira ili “pretražuje” internetske stranice kako bi stvorio indeks podataka koje traži; ovi programi su obično napravljeni da se koriste samo jednom, ali se mogu programirati i za dugotrajnu upotrebu. Postoji nekoliko namjena programa, od kojih su možda najpopularnije tražilice koje ga koriste za pružanje relevantnih web stranica surferima. Ostali korisnici uključuju lingviste i istraživače tržišta ili bilo tko tko pokušava organizirano pretraživati ​​informacije s Interneta. Alternativni nazivi za web indeksiranje uključuju web pauk, web robot, bot, indekser i automatski indeksator. Programi za indeksiranje mogu se kupiti na Internetu ili od mnogih tvrtki koje prodaju računalni softver, a programi se mogu preuzeti na većinu računala.

Zajednički koristi

Postoje različite namjene za web indeksiranje, ali u suštini web indeksiranje može koristiti svatko tko želi prikupiti informacije na Internetu. Tražilice često koriste web alate za indeksiranje za prikupljanje informacija o tome što je dostupno na javnim web stranicama. Njihova je primarna svrha prikupljati podatke kako bi surferi, kada unesu pojam za pretraživanje na svojoj web stranici, mogli brzo pružiti surferu relevantne web stranice. Lingvisti mogu koristiti web alat za indeksiranje za provođenje tekstualne analize; odnosno mogu pročešljati internet kako bi utvrdili koje se riječi danas obično koriste. Istraživači tržišta mogu koristiti web alat za indeksiranje kako bi odredili i procijenili trendove na određenom tržištu.

Internet indeksiranje je važna metoda za prikupljanje podataka i praćenje Interneta koji se brzo širi. Ogroman broj web stranica neprestano se dodaje svaki dan, a informacije se stalno mijenjaju. Web indeksiranje je način na koji tražilice i drugi korisnici redovito osiguravaju ažurnost svojih baza podataka. Postoje brojne nezakonite upotrebe web alata za indeksiranje, kao i hakiranje poslužitelja za više informacija nego što se slobodno daje.

Kako radi
Kada web pretraživač tražilice posjeti web stranicu, on “čita” vidljivi tekst, hiperveze i sadržaj različitih oznaka koje se koriste na web mjestu, kao što su meta tagovi bogati ključnim riječima. Koristeći informacije prikupljene od alata za indeksiranje, tražilica će tada odrediti o čemu se web-mjesto bavi i indeksirati informacije. Web stranica se zatim uključuje u bazu podataka tražilice i proces rangiranja stranice.
Web alati za indeksiranje mogu raditi samo jednom, recimo za određeni jednokratni projekt. Ako je njegova svrha za nešto dugoročno, kao što je slučaj s tražilicama, web indekseri mogu biti programirani da povremeno pročešljaju internet kako bi utvrdili je li došlo do značajnih promjena. Ako web-mjesto ima gust promet ili tehničke poteškoće, pauk se može programirati da to primijeti i ponovno posjeti stranicu, nadamo se nakon što tehnički problemi nestanu.