Textový soubor: Porovnání verzí

Z Wikipedie, otevřené encyklopedie
Smazaný obsah Přidaný obsah
m link fix
m Milane, přestaň mršit články rádobyopravou odkazů.
Řádek 2: Řádek 2:
'''Textový soubor''' je počítačový [[soubor]] složený výhradně ze [[Znak (počítače)|znaků]]. Kromě [[Tisknutelný znak|tisknutelných znaků]] a [[Mezera|mezer]] mohou textové soubory obsahovat omezenou sadu [[Řídicí znak|řídicích znaků]], zpravidla pouze znaky [[Nový řádek|konce řádků]] a [[Tabulátor|tabelátory]].
'''Textový soubor''' je počítačový [[soubor]] složený výhradně ze [[Znak (počítače)|znaků]]. Kromě [[Tisknutelný znak|tisknutelných znaků]] a [[Mezera|mezer]] mohou textové soubory obsahovat omezenou sadu [[Řídicí znak|řídicích znaků]], zpravidla pouze znaky [[Nový řádek|konce řádků]] a [[Tabulátor|tabelátory]].


Soubory, které obsahují jiná data než znaky, nazýváme [[binární soubor|binárními]]. V binárních datech mohou mít některé [[Bajt|byty]] nebo [[Slovo (paměťová jednotka)|skupiny bytů]] význam počtu, velikosti, pozice v souboru, barvy, tónu, napětí, [[Adresa (informatika)#Offset|posunutí]] či [[strojová instrukce|strojové instrukce]]. Jakákoli binární data lze (za cenu zvětšení souboru) různými způsoby vyjádřit v textovém tvaru, například pomocí kodéru [[base64]]. Soubory obsahující [[Digitální obraz|obrázky]], [[Zvuk|audio]], [[video]], [[Spustitelný soubor|spustitelné programy]] a [[archivní soubor]]y jsou kvůli úspoře místa a pro rychlejší zpracování zpravidla binární.
Soubory, které obsahují jiná data než znaky, nazýváme [[binární soubor|binárními]]. V binárních datech mohou mít některé [[Bajt|byty]] nebo [[Slovo (paměťová jednotka)|skupiny bytů]] význam počtu, velikosti, pozice v souboru, barvy, tónu, napětí, [[Adresa (informatika)#Offset|posunutí]] či [[strojová instrukce|strojové instrukce]]. Jakákoli binární data lze (za cenu zvětšení souboru) různými způsoby vyjádřit v textovém tvaru, například pomocí kodéru [[base64]]. Soubory obsahující [[Obraz|obrázky]], [[audio]], [[video]], [[Spustitelný soubor|spustitelné programy]] a [[archivní soubor]]y jsou kvůli úspoře místa a pro rychlejší zpracování zpravidla binární.


Textové dokumenty, které pro formátování textu používají pouze znaky konce řádku, mezery a tabelátory, označujeme jako [[prostý text]] – obvykle se jim dávají jména s příponou <code>txt</code>. Jak prostý text, tak textové soubory obecně lze vytvářet a upravovat [[Textový editor|textovými editory]]. K vytvoření bohatěji [[Formátovaný text|formátovaného textu]] slouží [[Textový procesor|textové procesory]], které do souborů ukládají kromě textu i informace o [[Rodina písma|použitém písmu]], rozvržení textu na stránce, barvách, umožňují vkládat obrázky apod. Kvůli těmto přidaným informacím obvykle výsledný [[Elektronický dokument|dokument]] není textovým souborem. Vložení přídavných informací při zachování textového formátu umožňují [[značkovací jazyk]]y, které se používají například pro vytváření [[Webová stránka|webových stránek]]. Textový formát mají také [[Skriptovací jazyk|příkazové]] a [[Dávkový soubor|dávkové soubory]] a [[Zdrojový kód|zdrojové kódy]] [[Počítačový program|počítačových programů]] a mohou jej mít i [[konfigurační soubor]]y a datové soubory.
[[Textový dokument|Textové dokumenty]], které pro formátování textu používají pouze znaky konce řádku, mezery a tabelátory, označujeme jako [[prostý text]] – obvykle se jim dávají jména s příponou <code>txt</code>. Jak prostý text, tak textové soubory obecně lze vytvářet a upravovat [[Textový editor|textovými editory]]. K vytvoření bohatěji [[Formátovaný text|formátovaného textu]] slouží [[Textový procesor|textové procesory]], které do souborů ukládají kromě textu i informace o [[Rodina písma|použitém písmu]], rozvržení textu na stránce, barvách, umožňují vkládat obrázky apod. Kvůli těmto přidaným informacím obvykle výsledný [[Elektronický dokument|dokument]] není textovým souborem. Vložení přídavných informací při zachování textového formátu umožňují [[značkovací jazyk]]y, které se používají například pro vytváření [[Webová stránka|webových stránek]]. Textový formát mají také [[Skriptovací jazyk|příkazové]] a [[Dávkový soubor|dávkové soubory]] a [[Zdrojový text|zdrojové texty]] [[program]]ů a mohou jej mít i [[konfigurační soubor]]y a datové soubory.


Textový soubor lze považovat za druh [[Multimediální kontejner|kontejneru]]. Obvyklý kontejner však definuje globální struktury souboru, do kterých se vkládají jednotlivé části (např. video, audio a titulky), zatímco fakt, že soubor je textový, určuje způsob ukládání těch nejmenších složek dat.
Textový soubor lze považovat za druh [[Multimediální kontejner|kontejneru]]. Obvyklý kontejner však definuje globální struktury souboru, do kterých se vkládají jednotlivé části (např. video, audio a titulky), zatímco fakt, že soubor je textový, určuje způsob ukládání těch nejmenších složek dat.


== Členění na řádky ==
== Členění na řádky ==
Textový soubor není prostou lineární posloupností znaků, ale je členěn na jednotlivé řádky. U historických operačních systémů byl řádek reprezentován pevným počtem znaků (nejčastěji 80 podle počtu pozic na nejrozšířenějších [[děrný štítek|děrných štítcích]]) nebo [[záznam (informatika)|záznamem]] proměnné délky, který začínal údajem o délce. U moderních operačních systémů mají řádky proměnnou délku a každý řádek je zakončen znakem konce řádku:
Textový soubor není prostou [[lineární]] posloupností znaků, ale je členěn na jednotlivé řádky. U historických operačních systémů byl řádek reprezentován pevným počtem znaků (nejčastěji 80 podle počtu pozic na nejrozšířenějších [[děrný štítek|děrných štítcích]]) nebo [[záznam (informatika)|záznamem]] proměnné délky, který začínal údajem o délce. U moderních operačních systémů mají řádky proměnnou délku a každý řádek je zakončen znakem konce řádku:


* v [[Unix]]u znakem LF (''line feed'' – nový řádek)
* v [[Unix]]u znakem LF (''line feed'' – nový řádek)
Řádek 19: Řádek 19:


== Kódování textových souborů ==
== Kódování textových souborů ==
Podle použitého [[Znaková sada|kódování]] mohou být jednotlivé [[znak (počítače)|znaky]] reprezentovány jedním [[Bajt|bytem]], pevným počtem bytů (obvykle dvojicí nebo čtveřicí) nebo posloupností bytů.
Podle použitého [[Kódování znaků|kódování]] mohou být jednotlivé [[znak (počítače)|znaky]] reprezentovány jedním [[Bajt|bytem]], pevným počtem bytů (obvykle dvojicí nebo čtveřicí) nebo posloupností bytů.


Při použití kódování [[ASCII]] je každý znak uložen v jednom [[Bajt|bytu]]; stejně tomu bylo u různých osmibitová [[Kódování češtiny#Osmibitová kódování češtiny|osmibitových kódování]] používaných pro zápis národních znaků.
Při použití kódování [[ASCII]] je každý znak uložen v jednom [[Bajt|bytu]]; stejně tomu bylo u různých [[Osmibitová kódování češtiny|osmibitových kódování]] používaných pro zápis národních znaků.


Po roce 2000 se stále častěji používá znaková sada [[ISO/IEC 10646]] ([[Unicode]]), které umožňuje reprezentovat všechny v současnosti běžně používané znaky, včetně znaků [[čínština|čínské]] ([[japonština|japonské]], [[korejština|korejské]]) znakové řeči a jiných orientálních skriptů (indické skripty jako [[sanskrt]], [[dévanágarí]], tibetské skripty atp.). Pro kódování se používá nejčastěji [[Unicode#UCS-2|UCS-2]] nebo [[UTF-16]] ([[Microsoft Windows|MS-Windows]], [[SMS]]), kde jeden znak je tvořen dvěma případně čtyřmi byty, nebo [[UTF-8]] ([[Unix]]y, [[World Wide Web|WWW]], [[e-mail]]), kde znak je tvořen posloupností 1-4 bytů.
Po roce 2000 se stále častěji používá znaková sada [[ISO/IEC 10646]] ([[Unicode]]), které umožňuje reprezentovat všechny v současnosti běžně používané znaky, včetně znaků [[čínština|čínské]] ([[japonština|japonské]], [[korejština|korejské]]) znakové řeči a jiných orientálních skriptů (indické skripty jako [[sanskrt]], [[dévanágarí]], tibetské skripty atp.). Pro kódování se používá nejčastěji [[Unicode#UCS-2|UCS-2]] nebo [[UTF-16]] ([[Microsoft Windows|MS-Windows]], [[SMS]]), kde jeden znak je tvořen dvěma případně čtyřmi byty, nebo [[UTF-8]] ([[Unix]]y, [[WWW]], [[e-mail]]), kde znak je tvořen posloupností 1-4 bytů.


== Textová reprezentace binárních dat ==
== Textová reprezentace binárních dat ==
Protože pro zpracování textových souborů existuje velké množství nástrojů, a textová data lze snadno přenášet, bylo vyvinuto množství způsobů pro reprezentaci binárních dat v textové podobě. Mezi nejstarší patří [[Intel HEX]], který se používá hlavně pro zápis obsahu paměti. Významným oborem, který podnítil vývoj textových reprezentací binárních dat byly [[počítačová síť|počítačové sítě]] a [[telekomunikace]], především [[e-mail]]. Po starších formátech specifických pro jednotlivé [[operační systém]]y, jako je [[Uunecoding|uuencode]] používaném v [[UN*X|unixových]] operačních systémech, a [[BinHex]] používaných na počítačích [[Macintosh]], přišel standard [[Multipurpose Internet Mail Extensions|MIME]] s kódováním [[base64]] pro binární soubory a [[quoted-printable]] pro textové soubory obsahující i jiné než [[ASCII]] znaky.
Protože pro zpracování textových souborů existuje velké množství nástrojů, a textová data lze snadno přenášet, bylo vyvinuto množství způsobů pro reprezentaci binárních dat v textové podobě. Mezi nejstarší patří [[Intel HEX]], který se používá hlavně pro zápis obsahu paměti. Významným oborem, který podnítil vývoj textových reprezentací binárních dat byly [[počítačová síť|počítačové sítě]] a [[telekomunikace]], především [[elektronická pošta]]. Po starších formátech specifických pro jednotlivé [[operační systém]]y, jako je [[uuencode]] používaném v rodině operačních systémů [[Un*x|Unix]], a [[BinHex]] používaných na počítačích [[Macintosh]], přišel standard [[MIME]] s kódováním [[base64]] pro binární soubory a [[quoted-printable]] pro textové soubory obsahující i jiné než [[ASCII]] znaky.


== Obsah textových souborů ==
== Obsah textových souborů ==

Verze z 27. 3. 2017, 07:11

Tento článek je o souborech složených ze znaků. O formátech sloužících pro kvalitní prezentaci textu pojednává článek formátovaný text.

Textový soubor je počítačový soubor složený výhradně ze znaků. Kromě tisknutelných znaků a mezer mohou textové soubory obsahovat omezenou sadu řídicích znaků, zpravidla pouze znaky konce řádků a tabelátory.

Soubory, které obsahují jiná data než znaky, nazýváme binárními. V binárních datech mohou mít některé byty nebo skupiny bytů význam počtu, velikosti, pozice v souboru, barvy, tónu, napětí, posunutí či strojové instrukce. Jakákoli binární data lze (za cenu zvětšení souboru) různými způsoby vyjádřit v textovém tvaru, například pomocí kodéru base64. Soubory obsahující obrázky, audio, video, spustitelné programy a archivní soubory jsou kvůli úspoře místa a pro rychlejší zpracování zpravidla binární.

Textové dokumenty, které pro formátování textu používají pouze znaky konce řádku, mezery a tabelátory, označujeme jako prostý text – obvykle se jim dávají jména s příponou txt. Jak prostý text, tak textové soubory obecně lze vytvářet a upravovat textovými editory. K vytvoření bohatěji formátovaného textu slouží textové procesory, které do souborů ukládají kromě textu i informace o použitém písmu, rozvržení textu na stránce, barvách, umožňují vkládat obrázky apod. Kvůli těmto přidaným informacím obvykle výsledný dokument není textovým souborem. Vložení přídavných informací při zachování textového formátu umožňují značkovací jazyky, které se používají například pro vytváření webových stránek. Textový formát mají také příkazové a dávkové soubory a zdrojové texty programů a mohou jej mít i konfigurační soubory a datové soubory.

Textový soubor lze považovat za druh kontejneru. Obvyklý kontejner však definuje globální struktury souboru, do kterých se vkládají jednotlivé části (např. video, audio a titulky), zatímco fakt, že soubor je textový, určuje způsob ukládání těch nejmenších složek dat.

Členění na řádky

Textový soubor není prostou lineární posloupností znaků, ale je členěn na jednotlivé řádky. U historických operačních systémů byl řádek reprezentován pevným počtem znaků (nejčastěji 80 podle počtu pozic na nejrozšířenějších děrných štítcích) nebo záznamem proměnné délky, který začínal údajem o délce. U moderních operačních systémů mají řádky proměnnou délku a každý řádek je zakončen znakem konce řádku:

  • v Unixu znakem LF (line feed – nový řádek)
  • na počítačích Macintosh znakem CR (carriage return – návrat vozíku)
  • v operačním systému MS-Windows a DOS dvojicí znaků CR, LF

Znak konec souboru

Starší operační systémy (například CP/M) neudržovaly délku souboru v bytech, ale v blocích (záznamech, sektorech). Aby mohl textový soubor končit jinde než na konci bloku, ukládal se na konec souboru znak konce souboru (End of File – EOF). V novějších operačních systémech se znak konce souboru uplatňuje pro ukončení souboru čteného z klávesnice; v operačním systému MS-Windows a DOS se používá znak s kódem 26 (Ctrl-Z), v Unixech znak s kódem 4 (Ctrl-D).

Kódování textových souborů

Podle použitého kódování mohou být jednotlivé znaky reprezentovány jedním bytem, pevným počtem bytů (obvykle dvojicí nebo čtveřicí) nebo posloupností bytů.

Při použití kódování ASCII je každý znak uložen v jednom bytu; stejně tomu bylo u různých osmibitových kódování používaných pro zápis národních znaků.

Po roce 2000 se stále častěji používá znaková sada ISO/IEC 10646 (Unicode), které umožňuje reprezentovat všechny v současnosti běžně používané znaky, včetně znaků čínské (japonské, korejské) znakové řeči a jiných orientálních skriptů (indické skripty jako sanskrt, dévanágarí, tibetské skripty atp.). Pro kódování se používá nejčastěji UCS-2 nebo UTF-16 (MS-Windows, SMS), kde jeden znak je tvořen dvěma případně čtyřmi byty, nebo UTF-8 (Unixy, WWW, e-mail), kde znak je tvořen posloupností 1-4 bytů.

Textová reprezentace binárních dat

Protože pro zpracování textových souborů existuje velké množství nástrojů, a textová data lze snadno přenášet, bylo vyvinuto množství způsobů pro reprezentaci binárních dat v textové podobě. Mezi nejstarší patří Intel HEX, který se používá hlavně pro zápis obsahu paměti. Významným oborem, který podnítil vývoj textových reprezentací binárních dat byly počítačové sítě a telekomunikace, především elektronická pošta. Po starších formátech specifických pro jednotlivé operační systémy, jako je uuencode používaném v rodině operačních systémů Unix, a BinHex používaných na počítačích Macintosh, přišel standard MIME s kódováním base64 pro binární soubory a quoted-printable pro textové soubory obsahující i jiné než ASCII znaky.

Obsah textových souborů

Obsah textových souborů může být různým způsobem strukturován. Pro ukládání tabulkových dat se používají relativně jednoduché CSV soubory členěné na řádky a položky. O něco složitější je struktura konfiguračních souborů ve formátu INI. Pomocí standardu MIME lze textově reprezentovat multimediální soubory. Soubory používající značkovací jazyky mohou být velmi složité, popsané gramatikou využívající rekurze. Jiným příkladem reprezentace složité spojové datové struktury pomocí poměrně jednoduchého textového souboru je formát GEDCOM pro výměnu genealogických dat.

Odkazy