Softver za prepoznavanje govora uvelike je napredovao otkako je prvi put izumljen, ali još uvijek ima nekoliko velikih problema koji ga sprječavaju da se koristi isključivo kao metoda transkripcije. Neki od problema prepoznavanja govora koje je teško riješiti uključuju varijacije u izgovoru riječi, pojedinačnim naglascima, homonimima i neželjenim ambijentalnim šumovima. Drugi skup problema s prepoznavanjem govora uključuje vrstu hardvera koji se koristi za stvarno unos zvuka, jer rezultati mogu imati veliki utjecaj na to kako će softver interpretirati govor. Također postoji problem nepoznavanja konteksta izgovorenih riječi, što može dovesti do teksta bez interpunkcije ili netočnog pravopisa.
Jedan od najosnovnijih problema prepoznavanja govora je kvaliteta ulaznih uređaja koji se koriste. Ako mikrofon nije dovoljno osjetljiv — ili je pretjerano osjetljiv — onda može stvoriti audio informacije koje je softveru teško dešifrirati. To je osobito istinito kada je mikrofon toliko osjetljiv da je govor izobličen, što softver za prepoznavanje čini gotovo beskorisnim. Sličan problem proizlazi iz pozadinske buke koju može biti problematično odvojiti od glavnog govora i može uzrokovati netočne prijevode kada se uključi u obradu govora.
Razlike u izgovoru, naglascima i kadenci govora kombiniraju se da tvore jedan od sve prisutnijih problema s prepoznavanjem govora. Kada se jedna riječ može izgovoriti na nekoliko načina, softver se može zbuniti i pogrešno protumačiti ono što se govori. Isto se može dogoditi kada osoba govori sporije ili brže nego što program očekuje. Postoje neka djelomična rješenja, kao što je obučavanje softvera u govornim obrascima jednog korisnika i korištenje dinamičkih algoritama za iskrivljavanje vremena za usklađivanje govora s bazom podataka uzoraka, ali ona ne rješavaju sve probleme.
Najsloženiji problem prepoznavanja govora je identificiranje konteksta izgovorenih riječi. Računalni softver ne može identificirati namjeravano značenje zbirke riječi, što dovodi do brojnih problema s transkribiranim tekstom. Riječi koje imaju sličan zvuk, kao što su “njihov” i “tamo”, mogu se točno napisati samo ako je poznat kontekst upotrebe. Iz istog razloga, softver je gotovo nemoguće postaviti točnu interpunkciju samo na temelju poznavanja slijeda riječi. Postoji funkcionalni softver za transkripciju koji se koristi u područjima kao što je medicina, ali rezultat je često blok riječi bez ikakvog odvajanja, što znači da je još uvijek potreban ljudski transkripcionist da uredi dokument i stvori čitljivu konačnu kopiju.