Textový soubor

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání
TXT
Přípona souboru .txt
Typ internetového média text/plain
Obsažen uvnitř CSV, HTML, C, XML, ...
Otevřený formát? ano

Textový soubor je soubor, ve kterém jednotlivé byty, dvojice bytů nebo posloupnosti bytů mají význam znaků. Pokud je možné soubor přečíst po znacích nebo po celých slovech do telefonu, jedná se o textový soubor.

Soubory, které nejsou textové, nazýváme binárními. Binární soubor obsahuje jiná data než znaky – jednotlivé byty nebo skupiny bytů mohou mít význam například barev, tónů, napětí nebo strojových instrukcí.

Textový soubor může obsahovat prostý text, formátovaný text obohacený dalšími informacemi například v nějakém značkovacím jazyce jako je HTML, nebo libovolná data zapsaná v textovém tvaru (jako je tomu například u souborů typu CSV – comma separated values, které obsahují hodnoty oddělené čárkami).

Kromě tisknutelných znaků může textový soubor obsahovat neviditelné řídicí „bílé znaky“, pro které se užívá anglický termín „whitespace“ (doslova bílé místo). V běžném textovém souboru se vyskytují pouze následující tři netisknutelné znaky:

  • mezera
  • tabulátor
  • odřádkování: (CR, LF, nebo sekvence CR-LF)

Členění na řádky[editovat | editovat zdroj]

Textový soubor není prostou lineární posloupností znaků, ale je členěn na jednotlivé řádky. U historických operačních systémů byl řádek reprezentován pevným počtem znaků (nejčastěji 80 podle počtu pozic na nejrozšířenějších děrných štítcích) nebo záznamem proměnné délky, který začínal údajem o délce. U moderních operačních systémů mají řádky proměnnou délku a každý řádek je zakončen znakem konce řádku:

  • v Unixu znakem LF (line feed – nový řádek)
  • na počítačích Macintosh znakem CR (carriage return – návrat vozíku)
  • v operačním systému MS-Windows a DOS dvojicí znaků CR, LF

Znak konec souboru[editovat | editovat zdroj]

Starší operační systémy (například CP/M) neudržovaly délku souboru v bytech, ale v blocích (záznamech, sektorech). Aby mohl textový soubor končit jinde než na konci bloku, ukládal se na konec souboru znak konce souboru (End of File – EOF). V novějších operačních systémech se znak konce souboru uplatňuje pro ukončení souboru čteného z klávesnice; v operačním systému MS-Windows a DOS se používá znak s kódem 26 (Ctrl-Z), v Unixech znak s kódem 4 (Ctrl-D).

Kódování textových souborů[editovat | editovat zdroj]

Klasický textový soubor je psán ve znakové sadě ASCII, kde jeden byte odpovídá jednomu tisknutelnému znaku.

Pro zápis národních znaků se používala nejrůznější osmibitová kódování, v současnosti se používá Unicode, který umožňuje zakódovat všechny v současnosti běžně používané znaky, včetně znaků čínské (japonské, korejské) znakové řeči a jiných orientálních skriptů (indické skripty jako sanskrt, dévangárí, tibetské skripty atp.). Unicode bývá zaznamenáván nejčastěji v UCS-2 nebo UTF-16 (MS-Windows, SMS), kde jeden znak je tvořen dvěma případně čtyřmi byty, nebo UTF-8 (Unixy, WWW, e-mail), kde znak je tvořen posloupností 1-4 bytů.