Korpus teksta je zbirka tekstova, izgovorenih ili napisanih, koji su temelj za korpusno lingvističko istraživanje. Pohranjivanje ovih velikih banaka tekstova omogućuje istraživačima da analiziraju različite aspekte bilo kojeg jezika. Korpus teksta je učinkovit način za provođenje istraživanja jer kada se materijal prikupi, može se koristiti za istraživanje raznih jezičnih pitanja uključujući morfologiju, sintaksu, vokabular i pragmatiku. Za razliku od starijih metoda provođenja lingvističkih istraživanja, korpus teksta omogućuje istraživačima da gledaju na jezik prema tome kako se on zapravo koristi u kontekstu, a ne kako bi se hipotetski mogao koristiti. Lingvisti obično imaju pristup mnogo većim uzorcima podataka nego kada su se morali ograničiti na podatke koje bi sami mogli prikupiti u ograničenom vremenskom razdoblju s ograničenim financijskim sredstvima.
Korpusi se obično pohranjuju u računalu, tako da se programi računalnog softvera mogu kreirati kako bi se olakšalo istraživanje. Jedan uobičajeni način korištenja korpusa teksta je prebrojavanje ukupnog broja riječi u tekstovima, zatim brojanje i rangiranje koliko puta su se određene riječi pojavile. Omjer koji se stvara između ukupnog broja riječi i određenih riječi poznat je kao Zipfov zakon. Ovaj omjer pomaže objasniti učestalost riječi u jeziku. Razumijevanje Zipfovog zakona pomaže računalnim programerima da dizajniraju računalni softver koji zadovoljava zahtjeve danog jezika. Mogu prebrojati i predvidjeti koliko će se često određene riječi i fraze koristiti kao ulaz.
Drugi način korištenja korpusa teksta je označavanje određenih elemenata u njemu koje istraživač želi proučavati. Primjer kako bi se to koristilo je da se izbroji koliko se puta pasivni glas pojavljuje u različitim žanrovima teksta. Označavanje je također bilo korisno u stvaranju računalnih programa koji pomažu ljudima u svakodnevnom životu. Označavanje dijela govora ključno je za razvoj softvera za prepoznavanje glasa. U engleskom, na primjer, ista riječ može imati više od jednog dijela govora. Višesložne riječi često su drugačije naglašene kako bi se signaliziralo koji se dio govora koristi. Imenica “objekt” nosi naglasak na prvom slogu, ali je glagol “objekt” naglašen na drugom slogu. Označavanje imeničkog oblika “objekt” pomaže računalnom programu da ga pravilno pročita naglas i prepozna kada čovjek izgovara “objekt”.
Korpusi teksta korisni su i za ljudsku lingvistiku i za računsku lingvistiku. Oni omogućuju provođenje istraživanja koje pomaže ljudima da bolje razumiju jezik koji ljudi koriste, što zauzvrat pomaže u razvoju jezika koji koriste računala. Učinjeni su veliki skokovi u tehnologiji prepoznavanja glasa, omogućujući potrošačima da verbalno kontroliraju računala u svojim uredima, domovima i vozilima. Kontinuirani napredak omogućit će ljudima da komuniciraju s računalima jednako prirodno kao i jedni s drugima.