Klasifikacija rudarenja podataka jedan je korak u procesu rudarenja podataka. Koristi se za grupiranje stavki na temelju određenih ključnih karakteristika. Postoji nekoliko tehnika koje se koriste za klasifikaciju rudarenja podataka, uključujući klasifikaciju najbližih susjeda, učenje stabla odlučivanja i strojeve za vektore podrške.
Data mining je metoda koju istraživači koriste za izdvajanje uzoraka iz podataka. Općenito, reprezentativni uzorak se bira iz skupa podataka, a zatim se manipulira i analizira kako bi se pronašli uzorci. Uz klasifikaciju rudarenja podataka, istraživači također mogu koristiti grupiranje, regresiju i učenje pravila za analizu podataka.
Postoji nekoliko algoritama koji se mogu koristiti u klasifikaciji rudarenja podataka. Klasifikacija najbližeg susjeda jedan je od najjednostavnijih algoritama za klasifikaciju rudarenja podataka. Oslanja se na set za obuku. Skup za obuku je skup podataka koji se koristi za obuku računala da obraća pozornost na određene varijable. U klasifikaciji najbližeg susjeda, računalo jednostavno klasificira sve podatke kao dio grupe koja sadrži podatke najbliže vrijednosti ulazu.
Učenje stabla odluka koristi model grananja za klasifikaciju podataka. Računalo u osnovi postavlja niz pitanja o podacima. Ako je odgovor na prvo pitanje točan, postavlja se pitanje 2a. Ako je odgovor netačan, postavlja se pitanje 2b. Kada se izvuče, ova metoda formira stablo staza grananja.
Naivna Bayesova klasifikacija oslanja se na vjerojatnost. Postavlja niz pitanja o svakom podatku, a zatim koristi odgovore kako bi odredio vjerojatnost da podaci pripadaju određenoj klasifikaciji. Ovo se razlikuje od učenja stabla odluka jer odgovor na prvo pitanje ne utječe na koje će se pitanje postaviti sljedeće.
Kompliciranije metode klasifikacije rudarenja podataka uključuju neuronske mreže i strojeve za vektore podrške. Ove metode su računalni modeli koje bi bilo teško napraviti ručno. Neuronske mreže se često koriste u programiranju umjetne inteligencije jer oponašaju ljudski mozak. Filtrira informacije kroz niz čvorova koji pronalaze uzorke, a zatim ih klasificiraju.
Strojevi potpornih vektora koriste uzorke za obuku za izgradnju modela koji će klasificirati informacije, obično vizualizirane kao dijagram raspršenja sa širokim razmakom između kategorija. Kada se nova informacija unese u stroj, ona se ucrtava na grafikon. Podaci se zatim klasificiraju na temelju kategorije kojoj informacija na grafikonu pripada najbliže. Ova metoda radi samo kada postoje dvije opcije za odabir.