Leksička gustoća odnosi se na omjer leksičkih i funkcionalnih riječi u bilo kojem tekstu ili zbirkama teksta. To je grana računalne lingvistike i lingvističke analize. Povezan je s vokabularom, poznatim riječima svakog pojedinca i može se koristiti za usporedbu govornog i pisanog leksikona bilo koje osobe. Leksikon se razlikuje od ukupnog vokabulara jer ne uključuje funkcionalne riječi kao što su zamjenice i čestice.
Gustoća govora ili teksta izračunava se usporedbom broja leksičkih riječi i broja funkcionalnih riječi. Kratke rečenice i mali tekstovi mogu se izračunati pomoću mentalne aritmetike ili jednostavnim brojanjem. Veće usporedbe, recimo Charlesa Dickensa ili Williama Shakespearea, vrše se unosom informacija u računalni program. Program će prosijati tekst u funkcionalne i leksičke riječi.
Uravnotežena leksička gustoća je približno 50 posto. To znači da se polovica svake rečenice sastoji od leksičkih riječi, a polovica od funkcionalnih riječi. Tekst niske gustoće imat će omjer manji od 50:50, a tekst visoke gustoće više od 50:50. Akademski tekstovi i državni dokumenti ispunjeni žargonom imaju tendenciju da proizvedu najveću gustoću.
Jedna mana u izračunu leksičke gustoće je da ne uzima u obzir različite oblike i slučajeve sastavnih riječi. Statistička analiza ima za cilj samo proučavanje omjera vrsta riječi. Ne proizvodi studij leksičkog znanja pojedinca. Da jest, analiza leksičke gustoće napravila bi razliku između oblika kao što su “dati” i “dati”. Teoretski se leksička gustoća može primijeniti na tekstove kako bi se proučila učestalost određenih leksičkih jedinica.
Pisani leksikon osobe može se pomoći korištenjem rječnika i tezaurusa. Takvi alati pružaju zamjenske riječi i pojašnjavaju značenje. Kada govori, osoba se mora osloniti samo na svoj mentalni vokabular. To znači da se leksička gustoća može koristiti kao alat za usporedbu govornog i pisanog leksikona. Leksička gustoća govornih jezika obično je niža od one u pisanom tekstu.
Računalna lingvistika je područje statističkog modeliranja lingvističke analize. Nastao je iz Hladnog rata i američke želje za korištenjem računala za prevođenje tekstova s ruskog na engleski. To je zahtijevalo korištenje matematike, statistike, umjetne inteligencije i računalnog programiranja. Najveći problem za programere bio je natjerati računalo da razumije složenu gramatiku i jezičnu pragmatiku. To je dovelo do teorije kineske sobe prema kojoj računala mogu izvoditi doslovne prijevode riječi, ali u konačnici ne mogu razumjeti jezike.