Određivanje sadržaja događa se kada osoba, grupa ili program odluči koje informacije treba uključiti ili isključiti unutar dokumenta ili teksta. Povezan je s konceptima koji okružuju strukturiranje dokumenata. Također se odnosi na generiranje prirodnog jezika i računsku lingvistiku. Svako područje studija koristi određivanje sadržaja kako bi ispitalo kako se informacije biraju.
Prilikom razmatranja što staviti u dokument ili tekst, sastavljač će provesti svoje istraživanje ili će mu dati sve dostupne podatke. Određivanje sadržaja pokriva načine na koje se te informacije svode u konačni dokument. To se postiže utvrđivanjem kuta ili cilja teksta i koje su informacije unutar teksta relevantne za to.
Drugo razmatranje određivanja sadržaja je njegov stil. To obično ovisi o prirodi ciljane publike. Intelekt publike i poznavanje predmeta izmijenit će leksičku gustoću i složenost informacija koje se prenose. Akademici će, na primjer, proizvoditi gušće tekstove od tračerskih časopisa. Ostala razmatranja uključuju veličinu formata, bilo da se radi o knjizi, članku ili tekstualnoj poruci.
Određivanje svakog stanja sadržaja vrši čovjek. Tu su istraživač i pisac, koji su često, ali ne uvijek, ista osoba, a zatim urednik ili urednici. Svaka razina ima mišljenje o tome koji je sadržaj relevantan za cilj teksta. Računalni lingvisti i računalni inženjeri tražili su načine da reproduciraju ovaj sustav pomoću računalnih programa umjesto da se oslanjaju na ljude.
Postoje tri računske tehnike koje koriste računala u vezi s određivanjem sadržaja. ‘Tehnika sheme’ temelji se na ispitivanju napisanih tekstova. Koristi prethodno pregledane tekstove kao osnovu za informacije koje treba uključiti u tekst koji se proizvodi. ‘Statistička’ metoda automatski određuje sadržaj na temelju niza općih statistika. ‘Ekplicitno razmišljanje’ koristi umjetnu inteligenciju (AI) za ispitivanje i filtriranje informacija.
Opći cilj određivanja sadržaja je razumjeti kako se dokumenti proizvode kako bi se mogli reproducirati pomoću računala. Rezultat takvog uspjeha bit će računalo koje će moći primati podatke, filtrirati ih i proizvoditi sažetke najvažnijih informacija. Računalo će takve dokumente temeljiti ne samo na informacijama, već i na ciljevima teksta koji se proizvodi. U duhu teorije kineske sobe, to može značiti da je računalo u stanju razumjeti podatke umjesto da ih može replicirati i izračunati.