Govorni korpus, također poznat kao govorni korpus, zbirka je govora sačuvanih u audio ili tekstualnom formatu. Ove zbirke su korisne u razvoju govornog softvera i u provođenju lingvističkih studija. Dvije varijante govornog korpusa su spontani govor i čitani govor.
Važno je definirati što znače riječi “govor” i “korpus”. Govor se sastoji od zbirke misli i činjenica, obično u govornom obliku. Svaki izgovoreni iskaz također se može promatrati kao govor. Korpus, pak, upućuje na formalnu zbirku različitih informacija.
Korisnici općenito stvaraju govorni korpus putem audio snimaka ili tekstualnih transkripcija. Snimke se mogu napraviti pomoću tehnologija za pohranu zvuka i pohraniti – često kao MP3 datoteke u elektroničkim bazama podataka – kako bi se stvorio korpus. Prepisivač, s druge strane, pretvara govorni govor u pisani oblik, koji se zatim sastavlja s drugim transkripcijama.
Bilo koja vrsta govora može se naći u govornom korpusu, ali takve se baze podataka općenito dijele u dvije kategorije. Prvi, spontani govor, sadrži neformalizirane govore koje bi osoba mogla održati, kao što su oni koji se nalaze u razgovorima ili u usmenom pripovijedanju. Čitani govori, međutim, imaju formaliziraniju i unaprijed planiranu strukturu. Primjeri mogu uključivati političke govore, vijesti i čitanja audio knjiga. Neke vrste mogu ovisiti o specifičnom kontekstu, poput intervjua.
Jedna od glavnih prednosti alata govornog korpusa je njihova praktična korisnost u stvaranju softvera koji se temelji na govoru. Na primjer, mnoga računala i drugi elektronički uređaji nude značajke prepoznavanja govora kao opciju, kao što je čitanje upisanog teksta, pretvaranje izgovorenih riječi u tekst ili prepoznavanje govornika po jedinstvenim glasovnim osobinama. Ekstrakcije iz govornog korpusa mogu pomoći u poboljšanju ove tehnologije primjenom matematički utemeljenih skupova statistika zvanih akustički modeli na svaki pojedinačni zvuk. Osim toga, baze podataka mogu pomoći u razvoju audio kaseta za učenje jezika.
Te su funkcije povezane s drugom aplikacijom za govorni korpus. Naime, znanstvenici mogu uzeti ove sačuvane audio ili pisane datoteke i proučavati suptilne gramatičke varijacije koje čine jezik. Stoga govorni korpus može poslužiti kao vrijedan alat za učenje o izgovoru, redu riječi i drugim jezičnim modelima. Istraživači mogu dalje uspoređivati sličnosti i razlike u različitim regionalnim dijalektima i jezicima ako stvore zbirku s više jezika ili višejezični korpus. Evaluacija korpusa koji uključuje govor je specijalizirana istraživačka koncentracija poznata kao korpusna lingvistika, a njezina računalna implementacija naziva se računalna lingvistika.
Mnoge baze podataka transkripta uključuju zapise ili oznake koje sadrže informacije o pojedinačnim komponentama u dijelu teksta. Taj se proces naziva anotacija. U procesu apstrakcije, lingvisti će dokumentirati i prevesti različite pojmove u govoru. Takav unos može biti koristan ako pojedinac želi učiti o nepoznatim civilizacijama kroz tekstove. Završni korak proučavanja korpusa uključuje analizu ili izvođenje usporedbi i teorijskih ideala iz zbirke govornih komponenti.