Što je redundantnost podataka?

Redundantnost podataka je situacija koja se događa unutar sustava baza podataka i uključuje nenamjerno stvaranje dupliciranih podataka koji nisu potrebni za funkcioniranje baze podataka. Dok je redundancija često poželjna osobina u nekim situacijama, to nije točno kada je u pitanju funkcija baze podataka. Prisutnost dupliciranih podataka često može imati negativan učinak na funkciju sustava, što rezultira vraćanjem informacija kao odgovor na upite sustava koji su manje nego korisni. Jedna od ključnih funkcija upravljanja podacima je identifikacija dupliciranih podataka i uklanjanje tih dupliciranja.

Potencijal za redundantnost podataka nalazi se u gotovo bilo kojoj vrsti programa baze podataka. Programi koji se smatraju ravnim, poput proračunskih tablica, i koji se oslanjaju na ručni unos podataka, posebno su osjetljivi na dupliciranje informacija što može dovesti do komplikacija kada je u pitanju dohvaćanje željenih informacija. Baze podataka relacijskog stila, kao što su baze podataka prodajnih kontakata, često uključuju procese koji pomažu da se minimiziraju šanse za nenamjerno umnožavanje, kao što je stvaranje dvije različite kontakt datoteke na istom kontaktu povezanom s istom tvrtkom. Čak i uz korištenje provjera sustava kako bi se smanjila incidenca redundantnosti podataka, još uvijek postoji potencijal za pojavu problema, zbog čega je potrebno povremeno sudjelovati u zadatku čišćenja podataka unutar baze podataka.

U najboljem slučaju, redundantnost podataka znači da je baza podataka pretrpana informacijama koje nisu bitne, ali ne predstavljaju stvarnu prijetnju mogućnosti pronalaženja podataka kada i prema potrebi. U najgorem slučaju, prisutnost dupliciranih podataka usporava bitne funkcije baze podataka i može zakomplicirati proces korištenja baze podataka za upravljanje određenim zadacima. Na primjer, korištenje baze podataka kupaca koja je začepljena suvišnim informacijama za generiranje poštanskih naljepnica rezultiralo bi stvaranjem niza dupliciranih razina, zbog čega bi bilo potrebno sortirati i zbrinuti duplikate prije nego što se naljepnice mogu koristiti ili uzeti vrijeme za čišćenje baze podataka prije pokušaja generiranja oznaka.

Na sreću, praćenje i ispravljanje redundantnosti podataka je nešto što mnogi sustavi za upravljanje podacima mogu postići s relativnom lakoćom. Neki će sustavi označiti unos dupliciranih podataka, što olakšava pregled uočenog dupliciranja i odlučivanje hoće li ga izbrisati ili dopustiti da stoji. Postoje čak i softverski programi koji se mogu koristiti za skeniranje postojeće baze podataka za dupliciranje i automatsko uklanjanje tih suvišnih unosa s relativnom lakoćom.