Veliki podaci mjere su podataka koji su narasli toliko da normalne baze podataka ne mogu sadržavati i raditi s golemom količinom informacija. Podaci dolaze u tri veličine: mala, srednja i velika; nijedno od ovih mjerenja nije strogo; umjesto toga, svaki više ovisi o jednostavnosti upotrebe i vrsti stroja koji može podnijeti informacije. Za velike podatke potrebni su posebni strojevi, puno veći i složeniji od onih koji se koriste za obične baze podataka. Ove vrste podataka obično se nalaze u vladinim i znanstvenim agencijama, ali neke vrlo velike web stranice također sadrže ovu veliku količinu informacija.
Podaci dolaze u tri standardne, ali ne i stroge veličine. Mali podaci mogu stati na jedno računalo ili stroj, kao što je prijenosno računalo. Srednji podaci mogu stati na diskovni niz i njima najbolje upravlja baza podataka. Baze podataka, bez obzira koliko velike, nisu sposobne za rad s velikim podacima, a umjesto njih se često koriste posebni sustavi. Iako ne postoje stroge smjernice o tome što su veliki podaci, obično počinju oko terabajtne (TB) razine i penju se do razine petabajta (PB).
Pokušaj rada s velikim podacima u bazi podataka koja nije specijalizirana za ovu količinu podataka prouzročit će nekoliko značajnih problema. Baza podataka nije u stanju nositi se s količinom informacija, pa se neki podaci moraju izbrisati. Ovo je kao da pokušavate smjestiti 100 gigabajta (GB) na računalo sa samo 50 GB prostora na tvrdom disku; to se ne može učiniti. Preostali podaci bit će nezgrapni i za kontrolu i za upravljanje, jer bi bilo kojoj funkciji potrebno puno vremena za dovršetak, a baza podataka mora biti zatvorena za nove podneske.
Iako je moguće nastaviti kupovati strojeve i dodavati nove podatke u baze podataka, to stvara težak problem. To je zato što je softver baze podataka napravljen samo za rad sa srednjim podacima. Veći skupovi podataka dovode do pogrešaka i administrativnih problema, jer se softver jednostavno ne može kretati ili raditi s velikim podacima bez problema.
Većina organizacija ili web stranica ne susreće se s velikim podacima. Obrambene i vojne agencije koriste ovu količinu informacija za izradu modela i pohranjivanje rezultata ispitivanja, a mnoge velike znanstvene agencije trebaju ove specijalizirane strojeve iz sličnih razloga. Neke vrlo velike web stranice trebaju velike strojeve za podatke, ali web stranice nisu tako česte kao agencije na ovom tržištu. Te organizacije moraju čuvati sve svoje podatke jer pomažu u boljoj analizi budućih podataka i predviđanju.