Kopanje podataka otvorenog koda može se odnositi na nekoliko različitih stvari, iako obično označava ili korištenje otvorenog softvera u rudarenju podataka ili korištenje data mininga za bolje razumijevanje programa otvorenog koda. Upotreba softvera otvorenog koda za rudarenje podataka nije strašno neobična, jer postoji niz moćnih i pouzdanih programa otvorenog koda koji se mogu koristiti za izdvajanje i organiziranje informacija iz velikih količina sirovih podataka. Rupanje podataka otvorenog koda također može uključivati korištenje softvera za rudarenje podataka na programima otvorenog koda, kako bi se bolje razumio kod koji se koristi za izradu tih programa.
Izraz “otvoreni izvor” u rudarenju podataka otvorenog koda odnosi se na softver koji je razvijen i objavljen pod nekim oblikom opće uporabe ili javne licence. Ove licence mogu varirati ovisno o načinu na koji je softver razvijen i željama programera. Općenito, međutim, takve licence dopuštaju drugima da koriste, modificiraju i distribuiraju softver objavljen pod licencom na bilo koji način koji smatraju prikladnim.
Podatkovno rudarenje otvorenog koda stoga može uključivati korištenje softvera otvorenog koda u postizanju različitih ciljeva i praksi rudarenja podataka. Data mining može se odnositi na niz različitih metoda, ali općenito se odnosi na korištenje softvera za “prosijavanje” velikih količina podataka za relevantne ili korisne informacije. Tvrtka može koristiti metode rudarenja podataka o podacima koje tvrtka proizvodi u vezi s brojkama prodaje tijekom određenog vremenskog razdoblja kako bi pročistila te neobrađene podatke u informacije koje su upotrebljivije i lakše razumljive.
Korištenje softvera za rudarenje podataka otvorenog koda prilično je uobičajeno zbog broja programa otvorenog koda koji su prilično učinkoviti za rudarenje podataka. Međutim, ovi se programi moraju koristiti odgovorno, jer u nekim područjima mogu postojati zakoni koji reguliraju način na koji se podaci mogu rudariti i koristiti. Jedna tvrtka mogla bi koristiti programe za rudarenje podataka otvorenog koda za dobivanje informacija iz podataka koji pripadaju drugoj tvrtki. Time se mogu povrijediti prava vlasništva nad podacima i poslovne tajne koje su zakonski zaštićene u mnogim područjima.
Otvoreni izvor podataka može se odnositi i na korištenje softvera za rudarenje podataka za dobivanje informacija o drugom programu. Metode rudarenja podataka mogu se koristiti za pronalaženje izvornog koda i drugih informacija o programu, što može dovesti do kršenja zakona kada se izvodi na komercijalnom softveru. Budući da se programi otvorenog koda obično stvaraju pod općom javnom licencom, rudarenje podataka na takvom softveru može se obaviti legalno. Podatke i informacije dobivene na ovaj način programeri potom mogu koristiti za učenje iz razvoja softvera otvorenog koda i rješavanje problema s drugim programima.