Što je distribucijska hipoteza?

Distribucijska hipoteza iznosi ideju da su riječi s istim značenjem grupirane zajedno unutar tekstova. Ideja ispituje riječi za njihovo značenje i njihovu distribuciju kroz tekst. To se zatim uspoređuje s distribucijama riječi sa sličnim ili srodnim značenjima. Takva ispitivanja utvrđuju da se riječi pojavljuju zajedno unutar svog konteksta zbog njihovog sličnog ili srodnog značenja.

Distribucijsku hipotezu prvi je predložio britanski lingvist JR Firth. Poznat je po najpoznatijem citatu u vezi s idejom “Znat ćeš riječ po tvrtki koju drži”. Firth, koji je također poznat po svojim studijama o prozodiji, vjerovao je da nijedan sustav nikada neće objasniti kako jezik funkcionira. Umjesto toga, vjerovao je da će biti potrebno nekoliko preklapajućih sustava.

Američki lingvist Zellig Harris nadovezao se na Firthovo djelo. Želio je koristiti matematiku za proučavanje i analizu lingvističkih podataka. Njegove ideje o doprinosu matematike takvim studijama su važne, ali je također poznat po pokrivanju širokog spektra lingvističkih ideja tijekom svog života.

Studije o hipotezi distribucije dio su ispitivanja lingvistike. Matematičke i statističke metode, a ne lingvističke, koriste se za probiranje velikih količina jezičnih podataka. To znači, dakle, da je distribucijska hipoteza dio računalne lingvistike i statističke semantike. Također je povezano s idejama lingvista i lingvističkih filozofa o razvoju materinjeg jezika kod djece, procesu poznatom kao usvajanje jezika.

Statistička semantika koristi matematičke algoritme za proučavanje distribucije riječi. Ti se rezultati zatim filtriraju prema značenju i dalje proučavaju kako bi se saznala raspodjela riječi povezanih po značenju. Postoje dvije glavne metode statističke semantike: distribucija po skupinama riječi i po tekstualnoj regiji.

Proučavanje distribucije riječi po skupinama povezanih značenja naziva se hiperprostorno analogno jeziku (HAL). HAL ispituje odnose riječi grupiranih u tekstu. To može biti unutar rečenice ili unutar paragrafa, ali rijetko dalje od toga. Semantička distribucija riječi određena je koliko se često riječi pojavljuju jedna pored druge.
Studije cijelog teksta koriste latentnu semantičku analizu (LSA). Ovo je metoda obrade prirodnog jezika. Riječi s bliskim značenjem pojavljuju se blizu jedna drugoj u cijelom tekstu. Takvi se tekstovi ispituju za klastere pomoću matematičke metode koja se naziva dekompresija singularne vrijednosti (SVD).

Podaci prikupljeni iz studija u distribucijsku hipotezu koriste se za proučavanje građevnih blokova semantike i odnosa riječi. Nadilazeći strukturalistički pristup, hipoteza se može primijeniti na umjetnu inteligenciju (AI). To bi pomoglo računalnim programima da bolje razumiju odnos i distribuciju riječi. Također ima implikacije na to kako djeca obrađuju riječi i stvaraju asocijacije riječi i rečenice.