Što je deduplikacija podataka?

Deduplikacija podataka je tehnika sažimanja podataka gdje se brišu dupli podaci, održavajući jednu kopiju svake jedinice informacija u sustavu umjesto dopuštanja višestrukim podacima da napreduju. Zadržane kopije imaju reference koje omogućuju sustavu da ih dohvati. Ova tehnika smanjuje potrebu za prostorom za pohranu i može održavati sustave radi brže uz ograničavanje troškova povezanih s pohranom podataka. Može raditi na više načina i koristi se na mnogim vrstama računalnih sustava.

U deduplikaciji podataka na razini datoteke, sustav traži sve duplicirane datoteke i briše dodatke. Deduplikacija na razini bloka gleda blokove podataka unutar datoteka kako bi identificirala strane podatke. Ljudi mogu završiti s udvostručenim podacima iz raznih razloga, a korištenje deduplikacije podataka može pojednostaviti sustav, čineći ga lakšim za korištenje. Sustav može povremeno pregledavati podatke kako bi provjerio ima li duplikata, eliminirao dodatke i generirao reference za datoteke koje su ostavljene.

Takvi se sustavi ponekad nazivaju inteligentnim kompresijskim sustavima ili sustavima za pohranu s jednom instancom. Oba pojma upućuju na ideju da sustav radi inteligentno na pohranjivanju i arhiviranju podataka kako bi se smanjilo opterećenje sustava. Deduplikacija podataka može biti posebno vrijedna kod velikih sustava u kojima se pohranjuju podaci iz brojnih izvora, a troškovi pohrane su u stalnom porastu, budući da se sustav s vremenom treba proširivati.

Ovi su sustavi dizajnirani da budu dio većeg sustava za komprimiranje i upravljanje podacima. Deduplikacija podataka ne može zaštititi sustave od virusa i grešaka, a važno je koristiti odgovarajuću antivirusnu zaštitu kako bi sustav bio siguran i ograničio virusnu kontaminaciju datoteka, a također i sigurnosno kopiranje na zasebnom mjestu kako bi se riješili problemi gubitka podataka zbog prekida, oštećenja na oprema, i tako dalje. Komprimiranje podataka prije sigurnosnog kopiranja uštedjet će vrijeme i novac.

Sustavi koji koriste deduplikaciju podataka u svojoj pohrani mogu raditi brže i učinkovitije. I dalje će zahtijevati povremeno proširenje kako bi se prilagodili novim podacima i riješili zabrinutosti oko sigurnosti, ali bi trebali biti manje skloni brzom popunjavanju dupliciranim podacima. Ovo je posebno čest problem na poslužiteljima e-pošte, gdje poslužitelj može pohraniti velike količine podataka za korisnike, a značajni dijelovi mogu se sastojati od duplikata poput istih privitaka koji se ponavljaju iznova; na primjer, mnogi ljudi koji šalju e-poštu s posla imaju priložena podnožja s odricanjem od odgovornosti e-pošte i logotipima tvrtke, a oni mogu brzo pojesti prostor na poslužitelju.

Što je deduplikacija?

Što je računalna datoteka?

Koje su različite vrste hardvera protiv neželjene pošte?

Što je poštanska bomba?

Što je poslužitelj pošte?

Što je proširenje naziva datoteke?

Što je arhitektura skladišta podataka?