Integracija podataka je spajanje više izvora podataka u jedan izvor podataka. Ova praksa često oduzima puno vremena i uključuje, budući da su različiti izvori podataka vjerojatno nekompatibilni jedan s drugim. Tako jednostavne stvari kao što su različiti nazivi stupaca u proračunskoj tablici dovoljne su da zahtijevaju preoblikovanje datuma. Ovaj proces je najčešći u situacijama kada su dvije grupe započele bez veze, ali su postavljene zajedno nakon što su radile samostalno. Integracija podataka postala je važnija tema zbog rasprostranjenosti besplatnih izvora podataka i online baza podataka.
Podatkovni dio integracije podataka može biti gotovo bilo što sve dok je pohranjen u računalni sustav. Stvarni sadržaj podataka rijetko je toliko važan kao način na koji su podaci pohranjeni. Većinu vremena podaci se čuvaju u bazama podataka, organiziranim informacijskim sustavima. Ovi sustavi sadrže jedinstvene unose i polja koja korisnicima omogućuju brzo pronalaženje informacija.
Najveća prepreka svakom procesu integracije podataka su sami podaci. U mnogim slučajevima, kada su podaci prvi put postavljeni, nije postojala namjera ikada spojiti skup podataka s drugim. To znači da iako se dva skupa podataka mogu odnositi na istu stvar, oni su potpuno nekompatibilni.
Gotovo sve će učiniti baze podataka nekompatibilnima. Nešto tako jednostavno kao što je razlika u prezentaciji, kao što je redoslijed polja ili širina stupca, može biti dovoljno da spriječi jednostavno spajanje. Kada se podaci značajno razlikuju, kao što je jedna baza podataka koja sadrži više ili manje informacija, spajanje je puno teže.
Dvije situacije koje zahtijevaju integraciju podataka više od bilo koje druge su u poslovnom i istraživačkom području. U poslovnom svijetu, spajanje odjela ili tvrtki zahtijeva kombiniranje prethodno odvojenih informacija u jednu strukturu. Ovaj oblik integracije općenito je vrlo težak osim ako su izvorne grupe koristile sličan softver i imale slične informacijske ciljeve.
Kada se integracija podataka provodi u istraživačke svrhe, općenito ide mnogo lakše. Kada jedan istraživač daje pristup svojim informacijama drugome, dvije strane općenito istražuju isti proces. To znači da će koristiti slične metode za katalogizaciju i pohranu svojih podataka.
U prošlosti je integracija podataka bila relativno manje područje proučavanja podataka, no to se promijenilo od početka 21. stoljeća. Budući da besplatne online baze podataka postaju sve popularnije i točnije, tvrtke se trude dobiti svoje informacije u formatu koji se može dijeliti. To im omogućuje da objave svoje informacije u javnom obliku i da integriraju privatne verzije dobro poznatih javnih sučelja u svoje sustave.