Što je automatska transkripcija?

Automatska transkripcija je proces izrade pisanog prijepisa izgovorenog ili snimljenog govora uz korištenje računala i bez izravne ljudske intervencije. Točna automatska transkripcija zahtijeva visokokvalitetan softver za transkripciju i uređaj koji može točno primati zvučni unos. Općenito, također je potrebno da govor ili snimka koju treba transkribirati budu razumno bez izobličenja i smetnji od pozadinske buke. Također su napravljeni pokušaji transkripcije glazbe uz korištenje računala sa specijaliziranim softverom za transkripciju. Transkripcija glazbe uključuje ispisivanje nota određenog glazbenog djela, posebno kada za tu glazbu ne postoji već postojeća nota, kao što je slučaj s improviziranim solažama.

Za uspješnu automatsku transkripciju potreban je dobar softver za transkripciju. Softver je odgovoran za obradu slušnog unosa, odvajanje kontinuiranog jezičnog toka u zasebne riječi, prepoznavanje tih riječi i njihovo ispravno predstavljanje u tekstu. Neuspjeh u bilo kojoj fazi ovog procesa općenito rezultira prijepisom koji se donekle razlikuje od izvornog materijala. Dobar softver za automatsku transkripciju trebao bi biti sposoban prepoznati suptilne razlike između sličnih riječi i kompenzirati različite stilove i brzine govora. Teški za razumijevanje naglasci su problematični čak i za najbolji softver za transkripciju.

Neki ljudi koriste softver za automatsku transkripciju jer više vole diktiranje nego izravno tipkanje ili pisanje teksta. Neki oblici softvera za automatsku transkripciju posebno su dobri za tu svrhu jer mogu “učiti” glasove ljudi čije riječi transkribiraju. U takvim se slučajevima automatska transkripcija ne koristi za stvaranje prijepisa govora iz raznih izvora, tako da nema potrebe da softver bude otvoren za širok izbor govornih obrazaca. Dopuštanje ovog procesa optimizacije, koji se može dogoditi tijekom dužeg korištenja softvera od strane jedne osobe ili tijekom preliminarne kalibracije, može uvelike povećati točnost i potencijalnu brzinu diktata.

Računala, nažalost, nisu tako prikladna za dosljedno i točno prepoznavanje ljudskog govora kao ljudi. Ne mogu, na primjer, koristiti kontekstualne tragove ako ne razumiju određenu riječ. Kao takav, čovjeku je često potrebno da lektorira transkripte nastale automatskom transkripcijom. Manje greške u oblikovanju i razne pogreške u transkripciji su u mnogim slučajevima uobičajene osim ako je transkribirani govor vrlo jasan. Ipak, korištenje kompjuterizirane transkripcije može brzo stvoriti čvrst temelj za prijepis koji zahtijeva samo ograničenu ljudsku intervenciju prije podnošenja ili upotrebe.