Što je popis učestalosti?

Popis frekvencija je alat za kvantitativnu lingvističku analizu, popis svega što se pojavljuje u odabranom bloku teksta i koliko se često pojavljuje. Jezična analiza je međudisciplinarno područje koje proučava strukturu jezika i način na koji se koristi. Kombinirajući elemente antropologije, matematike, informatike i logike, lingvistička analiza koristi se za projekte poput mehaničkog prijevoda, kriptografije i dešifriranja drevnih spisa.

Popisi učestalosti mogu biti popisi riječi ili slova. U kriptografiji se obično koriste frekvencije slova. Jedan od najjednostavnijih kodova je supstitucijska šifra, gdje se svako slovo zamjenjuje drugim slovom ili simbolom. Na primjer, poruka “napad u zoru” može biti kodirana kao “zoozhl zo azqp”. Prednost zamjenskih šifri je u tome što ne zahtijevaju šifrarnicu, ali nedostatak je u tome što se mogu razbiti usporedbom učestalosti slova i kombinacija slova unutar poruke s popisom učestalosti uobičajene upotrebe.

U knjizi Arthura Conana Doylea The Adventure of the Dancing Men, izmišljeni detektiv Sherlock Holmes koristi analizu frekvencija kako bi razbio šifru zamjene. Povijesno gledano, kreatori kodova su pokušavali razne trikove kako bi svoje šifre otežali probijanje s popisom frekvencija: pomicanje šifri u kojima je korištena zamjena ovisila o položaju slova unutar poruke, eliminiranje ili kodiranje razmaka tako da se frekvencije riječi ne mogu koristiti, zadržavanje poruka kratke i izbjegavajući očekivane riječi kako razbijači koda ne bi imali dovoljno uzorka za korištenje za analizu frekvencija. U konačnici, svaka se šifra može razbiti s dovoljno velikim uzorkom, zbog čega su sofisticiraniji protokoli šifriranja postali standard.

Popisi učestalosti riječi i vrsta riječi također se koriste u proučavanju starog jezika. Kada je Jean-Francois Champollion preveo Rosetta Stone 1820-ih, njegov je proces koristio mješavinu usporedbe frekvencija i transliteracije kako bi spojio hijeroglifski jezik. Studije su pokazale da za drevne jezike, kao i za moderni engleski, temeljni vokabular od 1,500 do 2,000 riječi pokriva 85-90 posto uobičajenih tekstova, što je razina koja čitatelju omogućuje da proširi svoj vokabular iz konteksta.

Zipfov zakon, nazvan po profesoru lingvistike s Harvarda Georgeu Kingsleyju Zipfu, empirijsko je promatranje ponašanja ocjena učestalosti. Navodi da je učestalost događaja obrnuto proporcionalna rangiranju događaja. Događaj je općenito riječ ili slovo u jezičnoj listi učestalosti, ali Zipfov zakon je generaliziran da pokrije i druge pojave kao što su gradsko stanovništvo i korporativne zarade.

Popis učestalosti važan je alat u projektima koji pomaže računalima da razumiju govorni i pisani jezik. Mehanički prijevod — korištenje računala za prevođenje dokumenata s jednog jezika na drugi — jedan je primjer. Drugi primjer je Watson, superračunalo na prirodnom jeziku koje je prikazano kao natjecatelj u televizijskoj igrici Jeopardy! u veljači 2011. Frekvencije riječi i vrsta upotrebe uključene su u njihovo programiranje kao alat za pronalaženje značenja.