Što je OCR (optičko prepoznavanje znakova)?

Optičko prepoznavanje znakova (OCR) je proces pretvaranja tiskanog materijala u tekst ili datoteke za obradu teksta koje se lako mogu uređivati ​​i pohranjivati. Tehnologija je omogućila da se takvi materijali pohranjuju koristeći mnogo manje prostora za pohranu od tiskanih materijala. OCR tehnologija je izvršila ogroman utjecaj na način na koji se informacije pohranjuju, dijele i uređuju. Prije optičkog prepoznavanja znakova, ako je netko želio pretvoriti knjigu u datoteku za obradu teksta, svaka bi stranica morala biti upisana riječ po riječ.

OCR tehnologija zahtijeva i hardver i softver. Osim toga, sofisticirani OCR sustavi zahtijevaju dodatnu ploču u samom računalu kako bi dovršili proces. Optički skener skenira tekst na stranici, a zatim razlaže fontove u niz točaka koje se nazivaju bitmapa. Softver može čitati najčešće fontove i razlikovati gdje linije počinju i gdje se zaustavljaju. Ova bitmapa se zatim prevodi u računalni tekst.

Iako je optičko prepoznavanje znakova postiglo ogroman napredak posljednjih godina, još uvijek nije dobro u prepoznavanju rukopisa ili fontova koji izgledaju slično rukopisu. Postoje sustavi unutar bankarske industrije koji koriste OCR tehnologiju kako bi pokušali pročitati iznose na ručno ispisanim čekovima, kako bi pratili sposobnost računala da očita brojeve usmjeravanja i računa.

Da biste dobili ideju o snazi ​​OCR-a, može vam pomoći pogledati primjer iz stvarnog svijeta. Zamislite policijsku upravu koja ima sve svoje kaznene dosijee pohranjene u ogromnim ormarićima za spise. Iako bi skeniranje milijuna stranica bio skup i dugotrajan pothvat, prednosti su ogromne.

Nakon što OCR sustav pretvori stranice u računalno čitljiv tekst, detektiv bi, na primjer, mogao pretražiti cijelu povijest u nekoliko sekundi. Ručno pronalaženje određenog zapisa možda i nije previše teško, ali zamislite detektiva koji pokušava potražiti sve zločine počinjene na određenom raskrižju između 8:00 i 8:30. Ovaj primjer samo zagrebe površinu moći teksta koji se može pretraživati, i to je samo jedan od razloga zašto mnoge tvrtke i institucije troše milijune dolara na OCR svoje naslijeđene podatke.