Statističko rudarenje podataka, također poznato kao znanje ili otkrivanje podataka, računalna je metoda prikupljanja i analize informacija. Alat za rudarenje podataka uzima podatke i kategorizira informacije kako bi otkrio obrasce ili korelacije koje se mogu koristiti u važnim aplikacijama, poput medicine, računalnog programiranja, promocije poslovanja i robotskog dizajna. Tehnike statističkog rudarenja podataka koriste složenu matematiku i komplicirane statističke procese za izradu analize.
Data mining uključuje pet glavnih koraka. Prva aplikacija za rudarenje podataka prikuplja statističke podatke i stavlja ih u program skladišnog tipa. Zatim se podaci u skladištu organiziraju i stvaraju sustav upravljanja. Sljedeći korak stvara način pristupa upravljanim podacima. Zatim, četvrti korak razvija softver za analizu podataka, također poznat kao regresija rudarenja podataka, dok posljednji korak olakšava korištenje ili tumačenje statističkih podataka na praktičan način.
Općenito, tehnike rudarenja podataka integriraju analitičke i transakcijske sustave podataka. Analitički softver razvrstava obje vrste podatkovnih sustava koristeći otvorena korisnička pitanja. Otvorena pitanja dopuštaju bezbroj odgovora tako da programeri ne utječu na rezultate sortiranja. Programeri stvaraju popise pitanja kako bi pomogli u kategorizaciji informacija koristeći opći fokus.
Razvrstavanje se tada temelji na razvoju klasa i skupina podataka, asocijacija pronađenih u podacima i pokušajima definiranja obrazaca i trendova na temelju asocijacija. Na primjer, Google prikuplja podatke o kupovnim navikama korisnika kako bi pomogao u postavljanju online oglašavanja. Otvorena pitanja koja se koriste za sortiranje ovih podataka o kupcima usredotočuju se na kupovne preferencije ili navike gledanja internetskih korisnika.
Računalni znanstvenici i programeri usredotočuju se na analizu statističkih podataka koji se prikupljaju. Stvaranje stabala odluka, umjetne neuronske mreže, metoda najbližeg susjeda, indukcija pravila, vizualizacija podataka i genetski algoritmi koriste statistički prikupljene podatke. Ovi sustavi klasifikacije pomažu u tumačenju asocijacija otkrivenih programima analitičkih podataka. Statističko rudarenje podataka uključuje male projekte koji se mogu izvesti u malom opsegu na kućnom računalu, ali većina skupova asocijacija za rudarenje podataka toliko je velika, a regresija rudarenja podataka toliko je komplicirana da zahtijevaju superračunalo ili mrežu brzih računala.
Statističko rudarenje podataka prikuplja tri općenite vrste podataka, uključujući operativne podatke, neoperativne podatke i metapodatke. U trgovini s odjećom, operativni podaci su osnovni podaci koji se koriste za vođenje poslovanja, kao što su računovodstvo, prodaja i kontrola zaliha. Neoperativni podaci, koji su neizravno povezani s poslovanjem, uključuju procjene buduće prodaje i opće informacije o nacionalnom tržištu odjeće. Metapodaci se tiču samih podataka. Program koji koristi meta podatke mogao bi razvrstati kupce trgovine u klasifikacije na temelju spola ili geografske lokacije kupaca odjeće ili omiljene boje kupaca, ako su ti podaci prikupljeni.
Aplikacija za rudarenje podataka može biti iznimno sofisticirana, a alat za statističko rudarenje podataka može imati široku praktičnu primjenu. Jedan primjer je proučavanje izbijanja bolesti. Projekt rudarenja podataka iz 2000. analizirao je izbijanje bolesti kriptosporidija u Ontariju u Kanadi kako bi se utvrdili uzroci porasta slučajeva bolesti. Rezultati istraživanja podataka pomogli su u povezivanju izbijanja bakterija s lokalnim stanjem vode i nedostatkom odgovarajućeg pročišćavanja komunalne vode. Područje pod nazivom “bionadzor” koristi epidemiološko istraživanje podataka za identifikaciju izbijanja jedne bolesti.
Računalni programeri i dizajneri također koriste proučavanje vjerojatnosti i statističke analize podataka za razvoj strojeva i računalnih programa. Googleova internetska tražilica dizajnirana je korištenjem statističkog rudarenja podataka. Google nastavlja prikupljati i koristiti rudarenje podataka za izradu ažuriranja programa i aplikacija.