Što je obrada prirodnog jezika?

Obrada prirodnog jezika (NLP) je način prevođenja između računalnih jezika i ljudskih jezika. Cilj ovog polja je omogućiti računalima da razumiju što tekst kaže bez davanja preciznih vrijednosti i jednadžbi za podatke koje tekst sadrži. U biti, obrada prirodnog jezika automatizira proces prevođenja između ljudskog i računalnog jezika. Iako se velik dio ovog polja oslanja na statistiku i modele za određivanje vjerojatnog značenja fraze, postoji i postojalo je mnogo različitih pristupa ovom problemu. Nalazi u ovom području imaju primjenu u područjima prepoznavanja govora, prevođenja na ljudski jezik, pronalaženja informacija, pa čak i umjetne inteligencije.

Razvijajući se iz pozadine u informatici i lingvistici, obrada prirodnog jezika suočava se s mnogim problemima jer jezik nije uvijek dosljedan i nisu svi tragovi značenja sadržani u samom jeziku. Čak i potpuni prikaz cjelokupne gramatike jezika uključujući sve iznimke ne dopušta uvijek računalu da raščlani informacije sadržane u tekstu. Neke su rečenice sintaktički dvosmislene, riječi često imaju više od jednog značenja, a neke kombinacije glasova ili simbola mijenjaju svoje značenje ovisno o granicama riječi — sve to može predstavljati problem za računalo koje ne razumije kontekst. Što je još važnije, velik dio jezika ovisi o povezanosti s fizičkim i društvenim svemirom – neke rečenice, poput govornih radnji, ne prenose informacije koliko djeluju na svijet. Čak i ako računalo savršeno razumije sintaksu i semantiku ljudskog jezika, tekst koji se analizira mora biti bez ljudskih sredstava, kao što su sarkazam ili pasivna agresija, kako bi računalo ispravno utvrdilo što tekst znači.

Ideološki, obrada prirodnog jezika je sustav interakcije čovjeka i računala koji je vođen idejom da je većini korisnika računala ugodnije raditi s računalima na ljudskom jeziku koji već poznaju nego prilagođavati se jeziku računala. Također kapitalizira činjenicu da je velik dio ljudskog znanja već kodiran ljudskim jezikom, a tekstovi koji sadrže to znanje mogu se prevesti u logičke strukture koje se mogu pojednostaviti za računalo. Dok mnogi projekti u ovom području rade na izdvajanju računalno čitljivih podataka iz tekstova na ljudskom jeziku, obrada prirodnog jezika također se koristi za generiranje čovjeku čitljivih tekstova iz računalnih podataka. I te mogućnosti razumijevanja i generiranja mogu se koristiti istom tehnologijom, kao u slučaju aplikacija koje prevode s jednog ljudskog jezika na drugi tako što prvo dekodiraju tekst u računalni jezik, a zatim ga kodiraju na drugom ljudskom jeziku. Inovacije dobivene u nastojanjima obrade prirodnog jezika također su upečatljivo primjenjive na projekte umjetne inteligencije zbog stupnja do kojeg je inteligencija slična čovjeku definirana ovladavanjem složenosti ljudskog jezika.