Web harvesting je proces kojim specijalizirani softver prikuplja podatke s Interneta i stavlja ih u datoteke za krajnjeg korisnika. Obavlja funkciju sličnu, ali napredniju od zadataka koje obavlja tražilica. Također poznato kao Web scraping, Web harvesting daje korisniku automatizirani pristup informacijama na Internetu koje tražilice ne mogu obraditi jer mogu zaobići HTML kod. Tri glavne vrste prikupljanja weba odnose se na web sadržaj, strukturu i korištenje.
Prikupljanje web sadržaja uključuje vađenje informacija izvlačenjem podataka iz rezultata stranica pretraživanja i dubljeg pretraživanja sadržaja skrivenog unutar web stranica. Ove dodatne informacije često su skrivene od tražilica jer su zaklonjene HTML kodom. Proces skenira informacije slično kao i ljudske oči, odbacujući znakove koji ne tvore smislene fraze kako bi se izvukli korisni elementi.
Umjesto pretraživanja sadržaja, prikupljanje web strukture prikuplja podatke o načinu na koji su informacije organizirane u određenim područjima interneta. Prikupljeni podaci pružaju vrijedne povratne informacije iz kojih se mogu napraviti poboljšanja u područjima kao što su organizacija informacija i njihovo pronalaženje. To je način da se pročisti sama struktura weba.
Sakupljanje korištenja weba prati opće obrasce pristupa i prilagođenu upotrebu od strane korisnika weba. Analizirajući korištenje weba, prikupljanje može pomoći u stvaranju jasnoće o tome kako se korisnici ponašaju. Ovo je još jedan način poboljšanja funkcije weba, ali na razini krajnjeg korisnika. Može pomoći dizajnerima da poboljšaju korisnička sučelja svojih web stranica za maksimalnu učinkovitost. Proces također pruža uvid u to koje vrste informacija korisnici traže i kako ih pronalaze, dajući na taj način ideju o tome kako bi se sadržaj trebao razvijati u budućnosti.
Prikupljanjem tekstualnih i slikovnih podataka iz HTML datoteka i slika, prikupljanje weba može izvesti složenije pretraživanje weba koje dublje prodire u svaki dokument. Također analizira veze koje upućuju na taj sadržaj kako bi se utvrdilo jesu li informacije važne i relevantne na Internetu. To daje potpuniju sliku o tome kako se informacije odnose i utječu na ostatak weba.
Tvrtke koriste Web harvesting za širok spektar namjena. To može biti učinkovit način prikupljanja podataka za analizu. Neki od uobičajenih skupova podataka su informacije o konkurentima, popisi različitih cijena proizvoda i financijski podaci. Podaci se također mogu prikupljati za analizu ponašanja kupaca.