Što je akustični model?

Akustični model je u biti mapa glasa u odnosu na niz tiskanih riječi. Ova se tehnologija koristi u programima za prepoznavanje govora kako bi pomogla računalu da nauči prepoznati govorne obrasce osobe. Akustični model je jedna od dvije glavne datoteke potrebne za pokretanje programa za prepoznavanje govora; drugi je jezični model, koji ukazuje na vjerojatne riječi i govorne obrasce koje govornik može koristiti. Ovi modeli nastaju uspoređivanjem detalja zvuka izgovorene audio datoteke s tekstom izgovorenih riječi.

Softver za prepoznavanje govora je softver dizajniran za prepoznavanje i transkribiranje ili odgovaranje na riječi koje osoba kaže. Mnogi operativni sustavi dizajnirani su s ugrađenim osnovnim mogućnostima prepoznavanja govora koje korisnik može uključiti i isključiti. Mogućnosti prepoznavanja govora na operativnim sustavima obično daju korisniku mogućnost upravljanja računalom i upisivanjem riječi na ekran svojim glasom.

Da bi pristupio softveru za prepoznavanje govora, korisniku je potreban mikrofon kako bi glas prenio na računalo, plus program koji obrađuje zvuk. Dok mnoga računala imaju ugrađene mikrofone, vanjski mikrofon slušalica omogućuje korisniku prednost jasnijeg zvuka glasa i slobodu kretanja po prostoriji dok govori. Samostalne marke softvera za prepoznavanje govora uključuju LumenVox®, Loquendo® i Dragon®.

Većina programa za prepoznavanje govora ima programiranje akustičnog modela koji omogućuje programu da prepozna varijacije u izgovoru. Koriste uzorke u zvuku govornikovog glasa kako bi identificirali riječi u govoru. Mnogi su dizajnirani sa softverom za postavljanje koji je napravljen da pomogne korisniku da stvori akustični model dizajniran za tumačenje vlastitog glasa. Neki napredni programi za prepoznavanje govora mogu identificirati i interpretirati više jezika, često s malom količinom zvučnih informacija. Što je napredniji program za prepoznavanje govora, to je vjerojatnije da će točno protumačiti riječi na temelju konteksta, uključujući mjesto u rečenici koja je izgovorena.

Područje studija koje razvija tehnologiju prepoznavanja govora naziva se računalna lingvistika. Računalna lingvistika uključuje proučavanje i dizajn koji stvara softver programiran za razumijevanje ljudskog govora. Ovo područje često uključuje informacije iz studija psihologije za stvaranje akustičkih modela koji mogu točnije interpretirati govor.

Riječ “akustično” općenito se odnosi na sve što ima veze sa zvukom. Iako se akustični modeli najčešće koriste u prepoznavanju govora, mogu se koristiti i u glazbi. Akustični model glazbene pjesme može identificirati svojstva poput otkucaja u minuti, glazbenih tipki ili dominantnih tonova u glazbi. Računalni program može upotrijebiti ovu informaciju za identifikaciju glazbenog zapisa ili se može koristiti za labavo određivanje žanra u koji je glazba vjerojatno kategorizirana. Akustični modeli se također koriste u polju proučavanja zvanom psihoakustika, u kojem se istraživači nadaju da će naučiti strukturirati glazbu koja predvidljivo utječe na mozak.