Referentni izraz je svaka riječ ili izraz čija je svrha identificirati određenu osobu, mjesto ili stvar. Općenito je to imenica, imenička fraza ili zamjenica. U lingvistici, identificiranje referirajućih izraza i njihovog odnosa prema objektima stvarnog svijeta na koje se odnose dio je proučavanja pragmatike, koja opisuje odnos između jezika i situacija u stvarnom svijetu koje jezik opisuje. Generiranje referirajućih izraza je potpolje generiranja prirodnog jezika, koje koristi računala za proizvodnju teksta koji što je moguće više oponaša ljudski jezik.
U gramatičkom smislu, sve imenice se odnose na ljude, mjesta, stvari ili ideje, ali nisu sve izrazi. Na primjer, rečenica “Bigl je pasmina psa” sadrži tri imenice: “bigl”, “pasmina” i “pas”. Svaki od njih se, međutim, odnosi na klasu stvari, a ne na bilo koju određenu stvar, tako da niti jedan nije referirajući izraz. Drugačije rečeno, svrha rečenice je dati informacije o beagleima općenito, a ne usmjeriti pozornost čitatelja na određeni beagle. S druge strane, u rečenici “Taj pas je beagle” “taj pas” je referirajući izraz jer ukazuje na određenog psa i daje informacije o njemu.
Na engleskom će izraz koji upućuje često sadržavati određeni član, “the” ili pokaznu zamjenicu kao što je “that” ili “those”, tako da izraz razlikuje određeni objekt od svih drugih sličnih. Na primjer, izraz “taj mamut” jasno bi ukazao na određenog mamuta i stoga bi bio referirajući izraz, dok “mamut” ne bi. Povremeno, međutim, gramatička struktura jedne rečenice nije dovoljna da bi se utvrdilo je li izraz izraz koji upućuje. U rečenici “Mamut je jeo prvenstveno travu”, “mamut” se može odnositi na određenog mamuta ili može biti opis mamuta općenito, ovisno o njegovom kontekstu.
Jedna praktična primjena pragmatike je generiranje prirodnog jezika. Kako bi stvorili referentne izraze koji jasno i nedvosmisleno ukazuju na namjeravanog referenta, programeri prirodnog jezika moraju razmotriti i gramatička i kontekstualna pitanja. Na primjer, računalno generirani jezik poput ljudskog jezika ne bi trebao sadržavati zamjenice koje bi se gramatički ili logički mogle odnositi na više od jedne imenice ili objekte iz stvarnog svijeta. Na taj je način generiranje referirajućih izraza naličje razlučivanja anafore, koja koristi različite algoritme za određivanje referenta zamjenica u tekstu koji je generirao računalo ili čovjek.