Što je proces rudarenja podataka?

Proces rudarenja podataka je alat za otkrivanje statistički značajnih obrazaca u velikoj količini podataka. Obično uključuje pet glavnih koraka, koji uključuju pripremu, istraživanje podataka, izgradnju modela, implementaciju i pregled. Svaki korak u procesu uključuje drugačiji skup tehnika, ali većina koristi neki oblik statističke analize.

Prije nego što proces rudarenja podataka može započeti, istraživači obično postavljaju ciljeve istraživanja. Ovaj pripremni korak obično određuje koje vrste podataka treba proučiti, koje tehnike rudarenja podataka treba koristiti i kakav će oblik biti rezultati. Ovaj početni korak u procesu može biti ključan za prikupljanje korisnih informacija.

Sljedeći korak u procesu rudarenja podataka je istraživanje. Ovaj korak obično uključuje prikupljanje potrebnih podataka iz skladišta informacija ili entiteta za prikupljanje. Zatim rudarski stručnjaci obično pripremaju skupove sirovih podataka za analizu. Ovaj se korak obično sastoji od prikupljanja, čišćenja, organiziranja i provjere svih podataka na pogreške.

Ovi pripremljeni podaci obično zatim ulaze u treći korak u procesu rudarenja podataka, izgradnju modela. Da bi to postigli, istraživači obično uzimaju male testne uzorke podataka i na njih primjenjuju razne tehnike rudarenja podataka. Korak modeliranja često se koristi za određivanje najbolje metode statističke analize potrebne za postizanje željenih rezultata.

Postoje četiri glavne tehnike koje se mogu primijeniti u procesu rudarenja podataka. Prva je klasifikacija, koja raspoređuje podatke u unaprijed definirane grupe ili kategorije. U drugoj tehnici, zvanoj grupiranje, istraživači dopuštaju računalu da organizira podatke u grupe, kako želi. Treća tehnika rudarenja podataka traži povezanost između varijabli. Četvrti tipično traži sekvencijalne obrasce u podacima koji se mogu koristiti za predviđanje budućih trendova.
Posljednji korak u procesu rudarenja podataka je implementacija. Za to se tehnike odabrane u modelu primjenjuju na veći skup podataka, a rezultati se analiziraju. Izvješće koje dolazi iz ovog koraka obično prikazuje obrasce pronađene u cijelom procesu, uključujući sve klasifikacije, klastere, asocijacije ili sekvencijalne obrasce koji postoje unutar skupa podataka.
Pregled je često važan završni korak. Ova faza u procesu obično uključuje ponavljanje modela rudarenja s novim skupom podataka kako bi se osiguralo da je glavni skup reprezentativan za cijelu populaciju podataka. Rezultati ne mogu predvidjeti trendove u većoj populaciji ako ih uzorak podataka ne predstavlja točno.