Što je prepoznavanje glasa?

Prepoznavanje glasa ili prepoznavanje govora je računalna tehnologija koja koristi audio ulaz za unos podataka, a ne tipkovnicu. Govor u mikrofon, na primjer, daje isti rezultat kao i ručno upisivanje riječi pomoću tipkovnice. Jednostavno rečeno, softver za prepoznavanje glasa dizajniran je s internom bazom podataka prepoznatljivih riječi ili fraza. Program usklađuje audio potpis govora s odgovarajućim unosima u bazi podataka.

Iako pretvaranje govora u tekst može zvučati jednostavno, to je iznimno težak zadatak. Problem leži u praktički beskonačnom nizu pojedinačnih govornih obrazaca i naglasaka, kompliciranih prirodnom ljudskom tendencijom povezivanja riječi.

Različiti modeli softvera za prepoznavanje govora koriste se za niz aplikacija, od osobnog diktata do komercijalnog automatiziranog usmjeravanja poziva, od pomoći osobama s invaliditetom do titlovanja sportskih događaja i vijesti. Svaki se model ponaša drugačije i ima svoje mogućnosti i granice.

Programi za prepoznavanje glasa koji zahtijevaju od korisnika da “obuči” softver da prepozna svoje posebne stilizirane obrasce govora nazivaju se sustavi ovisni o govorniku. Pojedinci obično koriste ove vrste programa kod kuće ili u uredu. E-pošta, bilješke, pisma, podaci i tekst mogu se unositi govorom u mikrofon.

Neki sustavi za prepoznavanje glasa, koji se nazivaju sustavi diskretnog govora, zahtijevaju od korisnika da govori jasno i polako te da odvaja riječi. Sustavi kontinuiranog govora dizajnirani su za razumijevanje prirodnijeg načina govora.
Diskretni govorni sustavi naširoko se koriste za usmjeravanje usluga korisnicima. Sustav je neovisan o govorniku, ali razumije samo mali skup riječi ili fraza. Pozivatelj ima izbor da odgovori na pitanje, obično s “da” ili “ne”. Nakon primitka odgovora, sustav eskalira pozivatelja na sljedeću razinu. Ako pozivatelj odgovori s jedinstvenim odgovorom, automatski odgovor je obično: „Oprostite, nisam vas razumio; pokušajte ponovno”, s ponavljanjem pitanja i dostupnim odgovorima. Ova vrsta prepoznavanja glasa također se naziva gramatički ograničeno prepoznavanje.

Neprekidni govor je sofisticiraniji oblik softvera za prepoznavanje glasa, u kojem pozivatelj može govoriti prirodno kako bi objasnio problem ili zatražio uslugu. Ovaj je program dizajniran za odabir ključnih riječi ili fraza i statističku najbolju pretpostavku o tome što kupac želi. Jasno govorenje pomaže programu u prepoznavanju potrebe. Ova vrsta sustava ima daleko intenzivniju bazu podataka od diskretnih govornih sustava, a naziva se i prepoznavanjem prirodnog jezika.

Automatsko prepoznavanje govora (ASR) je model prepoznavanja glasa dizajniran za diktiranje. Ovaj softver razlikuje se od prethodnih modela po tome što ne nastoji razumjeti ono što se govori, već samo identificirati izgovorene riječi. Budući da mnoge riječi u engleskom jeziku zvuče slično, greške se lako prave. ASR softver se često nalazi na digitalnim diktafonima.