Što je deduplikacija podataka?

Deduplikacija podataka je tehnika sažimanja podataka gdje se brišu dupli podaci, održavajući jednu kopiju svake jedinice informacija u sustavu umjesto dopuštanja višestrukim podacima da napreduju. Zadržane kopije imaju reference koje omogućuju sustavu da ih dohvati. Ova tehnika smanjuje potrebu za prostorom za pohranu i može održavati sustave radi brže uz ograničavanje troškova povezanih s pohranom podataka. Može raditi na više načina i koristi se na mnogim vrstama računalnih sustava.

U deduplikaciji podataka na razini datoteke, sustav traži sve duplicirane datoteke i briše dodatke. Deduplikacija na razini bloka gleda blokove podataka unutar datoteka kako bi identificirala strane podatke. Ljudi mogu završiti s udvostručenim podacima iz raznih razloga, a korištenje deduplikacije podataka može pojednostaviti sustav, čineći ga lakšim za korištenje. Sustav može povremeno pregledavati podatke kako bi provjerio ima li duplikata, eliminirao dodatke i generirao reference za datoteke koje su ostavljene.

Takvi se sustavi ponekad nazivaju inteligentnim kompresijskim sustavima ili sustavima za pohranu s jednom instancom. Oba pojma upućuju na ideju da sustav radi inteligentno na pohranjivanju i arhiviranju podataka kako bi se smanjilo opterećenje sustava. Deduplikacija podataka može biti posebno vrijedna kod velikih sustava u kojima se pohranjuju podaci iz brojnih izvora, a troškovi pohrane su u stalnom porastu, budući da se sustav s vremenom treba proširivati.

Ovi su sustavi dizajnirani da budu dio većeg sustava za komprimiranje i upravljanje podacima. Deduplikacija podataka ne može zaštititi sustave od virusa i grešaka, a važno je koristiti odgovarajuću antivirusnu zaštitu kako bi sustav bio siguran i ograničio virusnu kontaminaciju datoteka, a također i sigurnosno kopiranje na zasebnom mjestu kako bi se riješili problemi gubitka podataka zbog prekida, oštećenja na oprema, i tako dalje. Komprimiranje podataka prije sigurnosnog kopiranja uštedjet će vrijeme i novac.

Sustavi koji koriste deduplikaciju podataka u svojoj pohrani mogu raditi brže i učinkovitije. I dalje će zahtijevati povremeno proširenje kako bi se prilagodili novim podacima i riješili zabrinutosti oko sigurnosti, ali bi trebali biti manje skloni brzom popunjavanju dupliciranim podacima. Ovo je posebno čest problem na poslužiteljima e-pošte, gdje poslužitelj može pohraniti velike količine podataka za korisnike, a značajni dijelovi mogu se sastojati od duplikata poput istih privitaka koji se ponavljaju iznova; na primjer, mnogi ljudi koji šalju e-poštu s posla imaju priložena podnožja s odricanjem od odgovornosti e-pošte i logotipima tvrtke, a oni mogu brzo pojesti prostor na poslužitelju.