Što je tekstualna datoteka?

Tekstualna datoteka je računalna datoteka koja pohranjuje upisani dokument kao niz alfanumeričkih znakova, obično bez vizualnih informacija o formatiranju. Sadržaj može biti osobna bilješka ili popis, članak iz časopisa ili novina, knjiga ili bilo koji drugi tekst koji se može točno prikazati u kucanom obliku. Tekstualne datoteke slične su datotekama za obradu teksta po tome što je sadržaj obje prvenstveno tekstualni; razlikuju se po tome što tekstualne datoteke obično ne bilježe informacije kao što su stil i veličina znakova, paginacija ili druge pojedinosti koje bi specificirale izgled gotovog dokumenta. Neki računalni operacijski sustavi prave osnovnu razliku između tekstualne datoteke, čija je namjena da se izravno prevede u čovjeku čitljiv tekst, i binarne datoteke koju računalo izravno tumači.

U većini shema koje se koriste za kodiranje teksta, svakom znaku je dodijeljena numerička vrijednost, a tekst se zatim zapisuje kao niz binarnih brojeva. Jedna obitelj shema kodiranja, nazvana Američki standardni kod za razmjenu informacija (ASCII), postala je široko korišteni standard rano u povijesti računalstva, unatoč slaboj podršci za druge jezike osim engleskog. Obitelj kodova ISO 8859 pružila je mnogo bolju podršku za jezike temeljene na latiničnoj abecedi i sličnim alfabetima, ali nije bila u mogućnosti kodirati znakove iz istočnoazijskih jezika poput japanskog, što je dovelo do proliferacije nekompatibilnih standarda.

U novije vrijeme, Unicode® Consortium razvija sustav kodiranja nazvan Unicode® koji ima za cilj dodijeliti jedinstveni broj svakom znaku koji se koristi u svakom jeziku na zemlji. To će omogućiti korištenje jednog koda za svaki jezik i dopustiti da se tekstovi s više jezika pojavljuju u jednoj datoteci. Prvi dio Unicodea temelji se na ISO 8859, koji se i sam temelji na ASCII-u. Korištenje Unicode® može imati prednosti čak i u zemljama engleskog govornog područja, jer tekst kodiran korištenjem starijih shema može prikazati manje nedosljednosti kada se premješta sa sustava na sustav.

Prednosti tekstualnih datoteka uključuju malu veličinu i svestranost. Kilobajti ili megabajti manji od istih podataka pohranjenih u drugim formatima, mogu se brzo i masovno razmjenjivati ​​putem e-pošte ili diska. Većina se može otvoriti na računalima s različitim operativnim sustavima, koristeći vrlo osnovni softver. Primarni nedostatak je nedostatak formatiranja. Tekstualna datoteka može biti loš izbor za predstavljanje dokumenta koji sadrži slike ili se oslanja na elemente dizajna kako bi prenijeli svoje značenje – datoteka koja sadrži tablične podatke, matematičke formule ili konkretnu poeziju, na primjer.

Tekstualne datoteke općenito su namijenjene čitanju i uređivanju od strane ljudi, ali ne sadrže sve sadržaje koji su prvenstveno namijenjeni ljudskoj prehrani. Većina programskog koda pohranjena je u tekstualnoj datoteci prije prevođenja — to jest, prevedena je u strojno čitljivu binarnu datoteku. Datoteke također mogu sadržavati strojno čitljive tekstualne oznake koje osim običnog teksta daju informacije o formatiranju. Na primjer, datoteka jezika za označavanje hiperteksta (HTML) može se otvoriti kao obična tekstualna datoteka u uređivaču teksta ili prikazati kao formatirana web stranica nakon što je interpretira web preglednik. Slične sheme uključuju LaTeX, koji se koristi za postavljanje znanstvenih radova, i Extensible Markup Language (XML), koji se koristi za strukturiranje podataka.