Što je sinteza govora?

Sinteza govora je proces u kojem se verbalna komunikacija replicira putem umjetnog uređaja. Računalo koje pretvara tekst u govor jedna je vrsta sintesajzera govora.

Najraniji oblici sinteze govora implementirani su putem strojeva dizajniranih da funkcioniraju poput ljudskog vokalnog trakta. Govorni stroj koji je stvorio Wolfgang von Kempelen 1700-ih je primjer. Uz ovaj uređaj, govor se proizvodio kroz kuhinjski mijeh, trsku za gajde i zvono za klarinet. Kuhinjski mijeh bio je dizajniran da djeluje poput pluća, dok je glotis (područje glasnica) predstavljen kroz trsku za gajde. Zvono za klarinet služilo je kao usta.

Rad uređaja bio je potpuno ručni. Desna ruka je upravljala nizom poluga dok je lijeva ruka upravljala zvonom (ustima) klarineta. Postojala je i mogućnost začepljenja ‘nosnica’, kako bi se proizveo manje nazalni zvuk. U svakom slučaju, sve dok su se osnovne kontrole pravilno koristile, stroj je primao protok zraka. Ovaj protok zraka određivao je vrste zvukova koji će se proizvoditi.

Kasniji govorni strojevi tijekom 18. i 19. stoljeća zadržali su ovu postavu, iako je bilo poboljšanja. Na primjer, kasnih 1800-ih, Joseph Faber stvorio je govorni stroj koji je mogao primati unos putem tipkovnice i pedale. Stroj je također bio vrlo kreativan, jer je zvuk izlazio kroz umjetno ‘lice’.

Kad je nastupilo 20. stoljeće, inovacije u elektronici omogućile su sintezi govora da zauzme još snažniji smjer. Iako je premisa oponašanja ljudskog vokalnog trakta još uvijek bila ista, govorni strojevi s početka 20. stoljeća mogli su proizvesti bolje zvukove budući da je unos bio precizniji.

Međutim, tek se pojavom računala sinteza govora zapravo mogla koristiti izvan zabavne arene. To je uglavnom zato što bi se sintetizatori govora mogli pohraniti u softver umjesto u zasebnom stroju. Osim toga, uz pomoć računala, sinteza govora mogla bi poprimiti drugačiji oblik; koristeći ljudske glasove kao glavni izvor zvuka.

Ovaj oblik sinteze govora poznat je kao konkatenativni. Proces radi tako što povezuje različite snimke ljudskog govora. Rezultirajući zvuk puno je prirodniji i ugodniji za uho. To je u suprotnosti s programima koji koriste artikulatornu sintezu, gdje se govor replicira putem kompjuteriziranog modela vokalnog trakta.
Komercijalni sintetizatori govora mogu koristiti konkatenativne ili artikulacijske metode, ali obje mogu postići isti cilj; biti u mogućnosti dati ljudima priliku da čuju tekst. Ovo je osobito korisno u situacijama kada je čitanje nametljivo ili nemoguće.

U poslovnom svijetu takve su situacije vrlo česte, posebice kod telefonskih transakcija. Bez alternativa za pretvaranje teksta u govor (TTS), vlasnici poduzeća morali bi potrošiti novac na zapošljavanje još više osoblja za korisničku podršku. Sintetizirana rješenja izbjegavaju ovaj problem, budući da se sve radi računalom; ne ljudsko biće.
Sintetizirani govor također igra ulogu u svakodnevnom životu, posebno za osobe s invaliditetom. Satovi za razgovor, rječnici i drugi uređaji mogu olakšati stvari ljudima koji imaju problema s vidom ili čitanjem. Sintetizirani govor može čak dati glas pojedincima koji uopće nisu mogli govoriti. Steven Hawking, poznati fizičar, istaknut je primjer. Budući da ga je Lou Gehrigova bolest učinila nijemim, Hawking koristi sintisajzer glasa za komunikaciju s ljudima.

Dostupne su i TTS aplikacije koje pomažu ljudima u raznim računalnim aktivnostima. Kako bi dobili ove vrste aplikacija, većina korisnika morat će kupiti zaseban softver ili preuzeti zakrpe. Potonja je opcija obično besplatna, ovisno o operativnom sustavu ili programu za obradu teksta koji se koristi. Međutim, ako osoba odluči kupiti zaseban softver, mogla bi imati pristup sustavu veće kvalitete. Konkretni primjeri mogu se vidjeti kroz Natural Reader 7 i Text Aloud 2.
U konačnici, sinteza govora je tehnologija koja je revolucionirala način na koji čovječanstvo komunicira. U izvjesnom smislu, daje tekstu svoj vlastiti život. Također daje svijetu priliku da čuje misli briljantnih pojedinaca koji bi inače bili bez glasa.