Deduplikacija je proces koji se koristi za uklanjanje suvišnih podataka. Tijekom procesa, tvrdi disk računala se skenira u potrazi za velikim nizovima podataka u prozorima za usporedbu. Tijekom skeniranja u potrazi za duplim podacima, obično se odabiru nizovi od osam kilobajta ili više. Ako se slijed pronađe negdje drugdje u sustavu za pohranu, duplicirana datoteka se referencira, a ne ponovno pohranjuje.
Uspješna deduplikacija može eliminirati nekoliko kilobajta podataka na računalu, što dovodi do očitih prednosti. Dupliciranje podataka zauzima nepotreban prostor u sustavu, a kada se uklone suvišni podaci, to ostavlja korisniku više prostora za pohranu na računalu. To će omogućiti sustavu da radi brže i učinkovitije jer nije zatrpan dodatnim podacima. Dodatno, poboljšanje propusnosti uvijek je uočljivije kada računalo ima više slobodnog prostora.
Deduplikacija uključuje upućivanje velike količine podataka na prvu lokaciju i brisanje dodatnih kopija podataka, koje se, međutim, indeksiraju u slučaju da zatrebaju. Često se isti točni podaci mogu pohraniti na čak 100 različitih mjesta na tvrdom disku. Ako svaki zauzima jedan megabajt prostora, deduplikacija će smanjiti ovaj prostor na tvrdom disku sa 100 megabajta na samo jedan. Proces radi tako što se podaci arhiviraju, a dodatni prostor koji se dobije vrlo je koristan za tvrdi disk računala.
Dodatne prednosti deduplikacije uključuju smanjenje količine potrebnog sigurnosnog prostora za čak 90 posto, smanjenje troškova kao što su zahtjevi za napajanjem, prostorom i hlađenjem, vraćanje više razine usluge, eliminiranje mnogo različitih vrsta pogrešaka i obnavljanje podataka u nekoliko različite točke. Nedostatak deduplikacije je to što identificira duplikate podataka pomoću kriptografskih hash funkcija, što može biti nepouzdano, a kolizija ili druga vrsta pogreške bi rezultirala gubitkom podataka. Također, ako osoba koja je odobrila postupak nije svjesna uključenog smanjenja redundancije, to može negativno utjecati na pouzdanost računala.
Deduplikacija podataka funkcionira tako da prvo segmentira svaki dio podataka koji se obrađuje. Svaki segment se identificira i uspoređuje s podacima koji su već u sustavu. Ako su podaci jedinstveni, pohranjuju se na disk. Ako se radi o duplikatu podataka, umjesto toga se stvara referenca. Deduplikacija se može implementirati pomoću softvera nazvanog Data Domain, koji radi s podacima i sustavima za pohranu kako bi filtrirao podatke, referencirao, eliminirao ili spremao svaki bajt, prema potrebi.