Što je Data Mining?

Data mining koristi relativno veliku količinu računalne snage koja radi na velikom skupu podataka kako bi se utvrdile pravilnosti i veze između podatkovnih točaka. Algoritmi koji koriste tehnike iz statistike, strojnog učenja i prepoznavanja uzoraka koriste se za automatsko pretraživanje velikih baza podataka. Data mining je također poznat kao Knowledge-Discovery in Database (KDD).

Poput pojma umjetna inteligencija, data mining je krovni pojam koji se može primijeniti na niz različitih aktivnosti. U korporativnom svijetu, data mining se najčešće koristi za određivanje smjera trendova i predviđanje budućnosti. Koristi se za izgradnju modela i sustava za podršku odlučivanju koji ljudima daju informacije koje mogu koristiti. Data mining zauzima prvu ulogu u borbi protiv terorizma. Navodno je korišten za određivanje vođe napada 9. rujna.

Kopači podataka su statističari koji koriste tehnike s imenima kao što su modeli bliskih susjeda, grupiranje k-srednjih vrijednosti, metoda zadržavanja, k-fold unakrsno provjeravanje, metoda izostavljanja i tako dalje. Tehnike regresije koriste se za oduzimanje nebitnih uzoraka, ostavljajući samo korisne informacije. Pojam Bayesian često se viđa na terenu, a odnosi se na klasu tehnika zaključivanja koje predviđaju vjerojatnost budućih događaja kombinirajući prethodne vjerojatnosti i vjerojatnosti temeljene na uvjetnim događajima. Filtriranje neželjene pošte vjerojatno je oblik rudarenja podataka, koji automatski izvlači relevantne poruke na površinu iz kaotičnog mora pokušaja krađe identiteta i Viagre.

Stabla odluka koriste se za filtriranje brda podataka. U stablu odlučivanja, svi podaci prolaze kroz ulazni čvor, gdje se suočavaju s filterom koji razdvaja podatke u tokove ovisno o njihovim karakteristikama. Na primjer, podaci o ponašanju potrošača vjerojatno će se filtrirati na temelju demografskih čimbenika. Data mining se prvenstveno ne odnosi na otmjene grafove i tehnike vizualizacije, ali ih koristi kako bi pokazao što je pronašao. Poznato je da više statističkih informacija možemo apsorbirati vizualno nego verbalno i ovaj format za prezentaciju može biti vrlo uvjerljiv i moćan ako se koristi u pravom kontekstu.

Kako naša civilizacija postaje sve zasićenija podacima i senzori se masovno distribuiraju u naše lokalno okruženje, nehotice ćemo otkriti stvari koje bi mogle biti propuštene pri prvom prelasku. Data mining omogućit će nam da ispravimo ove pogreške i otkrijemo nove uvide temeljene na prošlim podacima, što će nam dati više novca za pohranu podataka.