Softver za rudarenje podataka je alat koji se koristi za prepoznavanje uzoraka u velikim skupovima podataka. Ovo područje računalnog softvera dramatično se proširilo u posljednjih nekoliko godina jer tvrtke traže načine za prevođenje velikih količina informacija u korisne informacije za donošenje odluka. Sposobnost jasnog identificiranja uzroka i posljedice, obrazaca u ljudskom ponašanju, trendova i drugih metrika ključna je za pravilno upravljanje bilo kojim poslovanjem. Prednosti softvera za rudarenje podataka jasne su većini korisnika, ali opća poslovna zajednica slabo razumije kako doći do željenih informacija i kako točno taj proces funkcionira.
Postoje tri aspekta softvera za rudarenje podataka koji opisuju proces: konverzija sirovih podataka, skripte za programiranje rudarenja i interpretacija. Ovaj proces je također poznat kao otkrivanje znanja u bazama podataka (KDD) i koristi se za opisivanje svih aspekata rudarenja podataka, uključujući strukturu podataka, metode pristupa podacima i arhitekturu sustava. Postoji niz tvrtki koje nude softver za rudarenje podataka, a dobro razumijevanje koncepata koji pokreću ovaj proizvod ključno je za uspješnu i odgovarajuću upotrebu tehnologije.
Prvi zahtjev za korištenje bilo kojeg softvera za rudarenje podataka je pretvaranje sirovih podataka u ciljni skup podataka. Na primjer, neobrađeni podaci su baza podataka svih prodaja obrađenih u širokom vremenskom okviru. Ciljani skup podataka ima samo podatke koji zadovoljavaju određeni kriterij. To može uključivati transakcije obrađene unutar određenog vremenskog okvira. U specifikacije skupa podataka uključena su pojedinačna polja koja su uključena. To može uključivati datum transakcije, način plaćanja, lokaciju trgovine, opis proizvoda i broj kupljenih artikala.
Nakon što se utvrde specifikacije skupa podataka, podaci se čiste kako bi se uklonile suvišne informacije, šum ili nepotpune podatkovne datoteke. Ovaj proces obično zahtijeva korištenje vještina programiranja, tehnika upravljanja podacima i opće razumijevanje postojećih primarnih koncepata podataka. Podatkovna baza ili skladište podataka najčešći je alat koji se koristi za pohranu tablica podataka na način kojem se može lako pristupiti softverskim programom za rudarenje podataka.
Stvarne programske skripte za rudarenje podataka mogu se prilagoditi ili programeri mogu koristiti standardne skripte uključene u softverski paket za rudarenje podataka. Velika većina softverskih programa za rudarenje podataka koristi regresijsku analizu, neizrazu logiku i algoritme za identificiranje specifičnih obrazaca koji zadovoljavaju korisničke specifikacije. Tumačenje rezultata zahtijeva ljudsku intervenciju, vrijeme i vještine u statistici, prepoznavanju uzoraka i srodnim matematičkim vještinama. Važno je zapamtiti da program može vratiti opcije samo na temelju specifikacija koje je dao korisnik. Loše definirane specifikacije i niska kvaliteta podataka negativno će utjecati na valjanost rezultata.