Što je web Data Mining?

Više nego ikad, subjekti i pojedinci podjednako koriste World Wide Web za obavljanje niza poslovnih i osobnih transakcija. Kao rezultat toga, tvrtke sve više koriste alate i tehnike za rudarenje podataka na webu kako bi pronašle načine za poboljšanje rezultata i povećanje baze kupaca. Internetsko rudarenje podataka uključuje proces prikupljanja i sažimanja podataka iz strukture hiperveza web stranice, sadržaja stranice ili dnevnika korištenja kako bi se identificirali uzorci. Koristeći web data mining, tvrtka može identificirati potencijalnog konkurenta, poboljšati korisničku uslugu ili ciljati potrebe i očekivanja kupaca. Državna agencija također može nastojati otkriti terorističke prijetnje ili druge kriminalne aktivnosti korištenjem web aplikacije za rudarenje podataka.

Neke uobičajene tehnike rudarenja podataka na webu uključuju rudarenje web sadržaja, rudarenje korištenja weba i rudarenje web strukture. Kopanje web sadržaja ispituje predmet web stranice. Na primjer, rudari web sadržaja mogu analizirati audio, tekst, slike i video značajke web mjesta. Kopači web sadržaja obično se više usredotočuju na tekstualne informacije web-mjesta nego na druge značajke web-mjesta. Obrada prirodnog jezika i pronalaženje informacija dvije su tehnike rudarenja podataka koje često koriste rudari web sadržaja.

Mining korištenja weba obično je automatizirani proces u kojem web poslužitelji prikupljaju i prijavljuju obrasce pristupa korisnika u zapisnicima pristupa poslužitelju. Tvrtka može, na primjer, koristiti alat za rudarenje podataka o korištenju weba za izvještavanje o zapisnicima pristupa poslužitelju i informacijama o registraciji korisnika kako bi stvorila učinkovitiju strukturu web stranice. Rudarstvo web strukture proučava čvornu strukturu i strukturu veze web stranica. Može biti korisno u identificiranju sličnosti i odnosa koji postoje među različitim web stranicama. Kopanje web strukture često uključuje otkrivanje uzoraka iz hiperveza ili izvlačenje struktura dokumenata na web stranici.

Dvije opće tehnike rudarenja podataka koje mogu koristiti web data miners su analiza asocijacija rudarenja podataka i regresija rudarenja podataka. Analiza povezanosti rudarenja podataka pomaže u otkrivanju značajnih odnosa zakopanih u velikim skupovima podataka. Regresija rudarenja podataka je statistička tehnika u kojoj se matematičke formule koriste za predviđanje budućih rezultata, kao što su profitne marže, vrijednosti kuće ili brojke o prodaji.

Dobavljači softvera za rudarenje podataka nude web alate za rudarenje podataka koji mogu izvući prediktivne informacije iz velikih količina podataka. Poduzeća često koriste ove alate za rudarenje softvera za analizu specifičnih skupova podataka o ponašanju potrošača. Koristeći rezultate analize podataka, tvrtke mogu predvidjeti buduće poslovne trendove.