Informační entropie: Porovnání verzí

Z Wikipedie, otevřené encyklopedie
Smazaný obsah Přidaný obsah
Přesměrování na Entropie#Informační entropie
 
Vytvoření článku překladem z angličtiny
značky: zrušeno přesměrování možný podpis v článku
Řádek 1: Řádek 1:
{{Ve výstavbě|14 dní|[[Wikipedista:Kolarp|Kolarp]] ([[Diskuse s wikipedistou:Kolarp|diskuse]])}}
#redirect [[Entropie#Informační entropie]]
[[Soubor:Entropy flip 2 coins.jpg|náhled|300px|Dva bity entropie: Při dvou hodech poctivou mincí je informační entropie vyjádřená v bitech logaritmus o základu 2 počtu možných výsledků; při hodu dvěma mincemi existují čtyři možné výsledky, což odpovídá dvěma bitům entropie. Informační entropie je obecně průměrné množství informace obsažené v události, pokud uvažujeme všechny možné výsledky.]]

'''Informační''' nebo též '''shannonovská entropie''' je [[střední hodnota]] množství [[informace]] připadající na jeden symbol generovaný [[Stochastika|stochastickým]] zdrojem dat.

Míra informační entropie přiřazená ke každé možné datové hodnotě je záporným [[logaritmus|logaritmem]] [[pravděpodobnostní funkce]] dané hodnoty:

:<math display> S = - \sum_i P_i\log{P_i} = -\operatorname{E}_P[\log P], </math>

kde <math>\operatorname{E}_P[X] = \sum_i P_i X_i</math> je střední hodnota definovaná pravděpodobností <math>P</math>.<ref name="pathriaBook">{{Citace monografie
| příjmení = Pathria
| jméno = R. K.
| příjmení2 = Beale
| jméno2 = Paul
| datum = 2011
| titul = Statistical Mechanics
| vydání = 3
| url = https://books.google.com/?id=KdbJJAXQ-RsC&printsec=frontcover#v=onepage&q&f=false
| vydavatel = Academic Press
| strany = 51
| isbn = 978-0123821881}}</ref>

Když datový zdroj vyprodukuje hodnotu (symbol), která má nízkou pravděpodobnost (tj. nastane událost s nízkou pravděpodobností), nese tato událost více „informace“ (způsobí větší „překvapení“), než vyprodukování hodnoty, která má pravděpodobnost vysokou. Pokud množství informace, které nese každá událost, považujeme za [[Náhodná veličina|náhodnou veličinu]], informační entropie je střední hodnota této náhodné události.

''Entropie'' obecně vyjadřuje neuspořádanost nebo nejistotu, a definice entropie používaná v teorii informace je přímou analogií [[entropie]] používané ve [[statistická termodynamika|statistické termodynamice]]. Koncept informační entropie představil [[Claude Shannon]] v roce 1948 ve svém článku „[[A Mathematical Theory of Communication]]".<ref name="shannonPaper">{{Citace periodika
| příjmení = Shannon
| jméno = Claude E.
| odkaz na autora = Claude Shannon
| titul = A Mathematical Theory of Communication
| periodikum = Bell System Technical Journal
| ročník = 27
| číslo = 3
| strany = 379–423
| datum = červenec–říjen 1948
| doi = 10.1002/j.1538-7305.1948.tb01338.x
| title-spoj = A Mathematical Theory of Communication
| hdl = 11858/00-001M-0000-002C-4314-2
| url = http://dml.cz/bitstream/handle/10338.dmlcz/101429/CzechMathJ_26-1976-4_6.pdf}} ([https://web.archive.org/web/20120615000000*/https://www.alcatel-lucent.com/bstj/vol27-1948/articles/bstj27-3-379.pdf PDF], archivováno z [http://www.alcatel-lucent.com/bstj/vol27-1948/articles/bstj27-3-379.pdf původního zdroje])</ref>

Základní model systému [[datová komunikace|datové komunikace]] obsahuje tři prvky: zdroj dat, [[komunikační kanál]] a přijímač a – jak vyjádřil Shannon – „základním problémem komunikace“ je, aby přijímač byl schopen ze signálu, který přijímá z přenosového kanálu, identifikovat, jaká data byla vygenerovaná zdrojem.<ref>{{Citace periodika
| url = http://math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf
| titul = A Mathematical Theory of Communication
| jméno = Claude E.
| příjmení = Shannon
| periodikum = Bell System Technical Journal
| ročník = 27
| číslo = 3
| strany = 379–423
| rok = 1948
| doi = 10.1002/j.1538-7305.1948.tb01338.x
| hdl = 10338.dmlcz/101429 }}, červenec a říjen</ref>{{rp|379–423 a 623–656}} Entropie vyjadřuje absolutní dolní mez průměrné délky [[Bezeztrátová komprese|bezztrátového]] kódování dat vytvářených zdrojem. Pokud je entropie zdroje menší než [[kapacita kanálu|kapacita komunikační kanálu]], je možné data generovaná zdrojem spolehlivě přenést k přijímači (alespoň teoreticky, případně se zanedbáním určitých praktických kritérií jako například času potřebného pro přenos dat a složitosti systému k tomuto účelu).

Informační entropie se nejčastěji měří v [[bit]]ech (kterým se v této souvislosti také říká „[[shannon (jednotka)|shannon]]s“), někdy v „přirozených jednotkách“ ([[nat (jednotka)|nat]]ech) nebo v desítkových číslicích (nazývaný „tečky“, „bans“ nebo „[[Hartley (jednotka)|hartleys]]“). Jednotka měření závisí na základu logaritmu použitého pro výpočet entropie.

Logaritmus rozdělení pravděpodobnosti je vhodný jako míra entropie, protože pro nezávislé zdroje je aditivní. Například entropie vrhu poctivou mincí je 1 bit a entropie {{math|''m''}} vrhů je {{math|''m''}} bitů. V přímočaré reprezentaci je potřeba {{math|log<sub>2</sub>(''n'')}} bitů pro reprezentaci proměnné, která může nabývat jedné z {{math|''n''}} hodnot, jestliže {{math|''n''}} je mocninou dvojky, tj. {{math|''n'' {{=}} 2<sup>''k''</sup>}}. Pokud jsou všechny hodnoty stejně pravděpodobné, entropie (v bitech) bude {{math|log<sub>2</sub>(''n''){{=}} ''k''}}. Pokud se jedna z hodnot bude objevovat častěji než ostatní, pozorování této hodnoty je méně informativní, než kdyby došlo k méně obvyklému výsledku. Naopak pozorování vzácnější události poskytuje více informace. Protože pozorování méně pravděpodobných událostí se objevují méně často, způsobují, že entropie (braná jako průměrná informace) pocházející z nerovnoměrně distribuovaných dat je vždy menší nebo rovna {{math|log<sub>2</sub>(''n'')}}. Entropie je nulová, pokud je jisté, že nastane jedna určitá událost. Entropie je veličina, která kvantifikuje tato kritéria pro známé rozdělení pravděpodobnosti zdrojových dat. Entropie nezávisí na ''obsahu'' pozorovaných událostí (významu ''zprávy''), ale bere v úvahu pouze pravděpodobnosti jejich výskytu. To znamená, že entropie závisí pouze na podkladovém rozdělení pravděpodobnosti, nikoli na významu událostí samých.

== Úvod ==
Základní myšlenkou teorie informace je, že „informační hodnota“ předávané zprávy závisí na míře, jak je obsah zprávy překvapivý. Není žádným překvapením, když dojde k události, která je velmi pravděpodobná. Naopak, v případě málo pravděpodobných událostí, je jejich výskyt mnohem informativnější. Například znalost, že určité číslo ''nevyhraje'' v loterii, nese velmi malou informaci, protože jakékoli určité číslo téměř určitě nevyhraje. Ale znalost, že určité číslo v loterii ''vyhraje'', má vysokou informační hodnotu, protože informuje o události s velmi nízkou pravděpodobností. [[Vlastní informace|Informační obsah]] (také nazývaný {{Cizojazyčně|en|''surprisal''}} – překvapení) události <math>E</math> je rostoucí funkcí převrácené hodnoty pravděpodobnosti <math>p(E)</math> události, přesněji <math>I(E) = -\log_2(p(E)) = \log_2(1/p(E))</math>. Entropie měří očekávané (tj. průměrné) množství informace obsažené v informaci o výsledku náhodného pokusu. Z toho vyplývá, že vrh kostkou má vyšší entropii než házení mincí, protože každý z výsledků vrhu kostkou má menší pravděpodobnost (<math>p=\frac{1}{6}</math>) než každý z výsledků vrhu mincí (<math>p=\frac{1}{2}</math>).

Entropie je míra ''nepředvídatelnosti'' výsledku, jeho ''průměrného informačního obsahu''. Chceme-li získat intuitivní porozumění těmto termínům, můžeme si představit průzkum veřejného mínění. Takové průzkumy se provádějí, aby se zjistila informace, která není známá. To znamená, že výsledek průzkumu je těžko ''předpověditelný'' a provedení průzkumu přináší nějakou ''novou informaci''; to je jen jiný způsob jak říct, že ''apriorní'' entropie výsledků průzkumu je velká. Pokud by se stejný průzkum prováděl znovu, krátce po prvním průzkumu, když je výsledek prvního průzkum už známý, bylo by možné výsledek druhého průzkum dobře předvídat, a jeho výsledky sotva obsahují mnoho nové informace; to znamená, že ''apriorní'' entropie výsledku druhého průzkumu je relativně malá v porovnání s prvním průzkumem.

Uvažujme vrh mincí. Pokud pravděpodobnost padnutí panny je stejná jako pravděpodobnost padnutí orla, pak entropie vrhu mincí je stejně vysoká jako u libovolného pokusu se dvěma stejně pravděpodobnými výsledky. Výsledek vrhu mincí nelze předpovědět: pokud si máme vybrat, neexistuje žádná průměrná výhoda předvídat určitý výsledek, protože každá předpověď bude správná s pravděpodobností <math>1/2</math>. Takový vrh mincí má jeden bit entropie, protože existují dva možné výsledky se stejnou pravděpodobností, a víme, že výsledek má jeden bit informace. Naproti tomu, vrh mincí, které by měla dvě panny a žádného orla má nulovou entropii, protože při vrhu takovou mincí vždy padne panna a výsledek lze dokonale předpovědět. Libovolná událost se stejně pravděpodobnými výsledky má Shannonovu entropii <math>\log_2 2=1</math> bit. Podobně každý pokus se [[Trojková soustava|třemi]] stejně pravděpodobnými hodnotami obsahuje <math>\log_2 3</math> (asi 1,58496) bitů informace, protože může nabývat jednu ze tří hodnot.

Pokud budeme anglický text považovat za řetězec znaků, má docela nízkou entropii; to znamená, že je docela dobře předvídatelný. I v případě, že nevíme přesně, jaký znak bude následovat, můžeme si být jisti, že například 'e' bude mnohem obvyklejší než 'z', nebo že kombinace 'qu' bude mnohem obvyklejší než 'q' následované jiným písmenem, a že i kombinace 'th' bude obvyklejší než 'z', 'q' nebo 'qu'. Zbytek slova můžeme často odhadnout z několika prvních písmen. Anglický text má entropii 0,6 až 1,3 bitů na znak zprávy.<ref name="Schneier, B stránka 234">{{Citace monografie
| příjmení = Schneier
| jméno = B
| titul = Applied Cryptography
| vydání = 2
| vydavatel = John Wiley and Sons}}</ref>{{rp|234}}

Pokud je [[Komprimace dat|komprimační]] schéma bezztrátové – takové, že původní zprávu lze vždy dekomprimovat – pak komprimovaná zpráva obsahuje stejné množství informace jako původní, ale je zakódována méně znaky. Obsahuje tedy více informace na znak (má vyšší entropii). Komprimovaná zpráva má menší [[redundance (teorie informace)|redundanci]]. [[Shannonova věta o zdrojovém kódování]] říká, že bezztrátové komprimační schéma nemůže v průměru komprimovat zprávy, aby měly ''více'' než jeden bit informace na bit zprávy, ale, že jakoukoli hodnotu ''menší'' než jeden bit informace na bit zprávy lze dosáhnout použitím vhodného kódovacího schématu. Entropie zprávy na bit znásobená délkou zprávy je mírou, kolik informace zpráva celkem obsahuje.

Uvažujme, že bychom měli vysílat posloupnosti obsahující 4 znaky 'A', 'B', 'C' a 'D' – například zprávu 'ABADDCAB'. Teorie informace říká, jak spočítat nejmenší možné množství informace, kterou je třeba přenést. Jsou-li všechna 4 písmena stejně pravděpodobná (25&nbsp;%), není možné najít lepší kódovací schéma (pro binární kanál), než zakódování každého písmene dvěma bity: 'A' například jako '00', 'B' jako '01', 'C' jako '10' a 'D' jako '11'. Pokud se však 'A' objevuje s 70% pravděpodobností, 'B' s 26%, a 'C' i 'D' s 2% pravděpodobností, bylo by možné přiřadit jednotlivým znakům kódy s různou délkou, takže přijetí '1' by znamenalo, že je třeba se podívat na jiný bit pokud žádná posloupnost 2 bitů jedniček už byla přijata. V tomto případě může být 'A' kódované jako '0' (jeden bit), 'B' jako '10' a 'C' a 'D' jako '110' a '111'. Je snadno vidět, že v 70&nbsp;% případů stačí jeden bit informace, v 26&nbsp;% případů dvou bitů a pouze ve 4&nbsp;% případů 3 bitů. Průměrně stačí méně než 2 bity, protože entropie je nižší (kvůli vysoký prevalenci symbolů 'A' následovaných 'B' – současně 96&nbsp;% znaků). Tento vliv zachycuje výpočet sumy pravděpodobnosti vážené logaritmem míry pravděpodobnosti.

Ze Shannonovy věty také vyplývá, že žádné bezztrátové komprimační schéma nemůže zkrátit ''úplně všechny'' zprávy. Pokud některé zprávy vyjdou kratší, alespoň jedna musí vyjít delší kvůli [[Dirichletův princip|Dirichletově principu]]. Při praktickém použití to obecně není problém, protože typicky přenášíme pouze určitý typ zpráv, například dokumenty v angličtině nikoli náhodné řetězce znaků, nebo digitální fotografie a nikoli šum, a proto není důležité, že komprimační algoritmus nějaké nepravděpodobné nebo nezajímavé posloupnosti prodlužuje.

== Definice ==
Shannon definoval entropii {{math|&Eta;}} [[diskrétní náhodná proměnná|diskrétní náhodné proměnné]] <math displej="inline">X</math> s možnými hodnotami <math displej="inline">\left\{x_1, \ldots, x_n \right\}</math> a [[Pravděpodobnostní funkce|pravděpodobnostní funkcí]] <math displej="inline">\mathrm{P}(X)</math> takto:

:<math>\Eta(X) = \operatorname{E}[\operatorname{I}(X)]
= \operatorname{E}[-\log(\mathrm{P}(X))].</math>

Pro entropii používá znak {{math|&Eta;}}, řecké velké písmeno [[eta]]), podle [[H-věta|Boltzmannovy Η-věty]]. <math>\operatorname{E}</math> je [[střední hodnota|operátor střední hodnoty]] a {{math|I}} je [[vlastní informace|informační obsah]] {{math|''X''}}.<ref>{{Citace monografie
| příjmení = Borda
| jméno = Monica
| titul = Fundamentals in Information Theory and Coding
| vydavatel = Springer
| rok = 2011
| isbn = 978-3-642-20346-6
| url = https://books.google.com/books?id=Lyte2yl1SPAC&pg=PA11}}</ref>{{rp|11}}<ref>{{Citace monografie
| autoři = Han, Te Sun & Kobayashi, Kingo
| titul = Mathematics of Information and Coding
| vydavatel = American Mathematical Society
| rok = 2002
| isbn = 978-0-8218-4256-0
| url = https://books.google.com/books?id=VpRESN24Zj0C&pg=PA19}}</ref>{{rp|19–20}}
<math>I(X)</math> je také náhodná proměnná.

Entropii můžeme explicitně zapsat jako

{{Rámeček| <math>\Eta(X) = -\sum_{i=1}^n {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)}</math>| pozice = left | popisek = | šířka = 6 | rámeček = #0073CF | barva = #F5FFFA }}
{{Clear}}

{{Rovnice okno 1
|indent =
|titul=
|rovnice = <math>\Eta(X) = -\sum_{i=1}^n {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)}</math>
|cellpadding= 6
|border
|hranice colour = #0073CF
|pozadí colour=#F5FFFA}}

kde {{math|''b''}} je [[Logaritmus#Speciální báze|základ]] použitého [[Logaritmus|logaritmu]]. V tomto případě se nejčastěji jako základ {{math|''b''}} používá hodnota 2, méně často [[Eulerovo číslo]] {{math|''e''}}, nebo 10. Entropie je pak vyjádřena v [[bit]]ech pro {{math|''b'' {{=}} 2}}, jednotkách nazývaných [[Nat (jednotka)|nat]] pro {{math|''b'' {{=}} ''e''}} a [[ban (jednotka)|ban]], hartley nebo dit pro {{math|''b'' {{=}} 10}}.<ref>{{Citace elektronické monografie
| příjmení = Schneider
| jméno = T.D
| url = http://alum.mit.edu/www/toms/paper/primer/primer.pdf
| titul = Information theory primer with an appendix on logarithms
| vydavatel = National Cancer Institute
| datum = 2007-04-14}}</ref>

V případě {{math|P(''x''<sub>''i''</sub>) {{=}} 0}} pro nějaké {{math|''i''}}, hodnota odpovídajícím summand {{math|0 log<sub>''b''</sub>(0)}} je převzaté, aby byla {{math|0}}, který je konzistentní s [[limit funkce|limit]]:

:<math>\lim_{p\to0^+}p\log (p) = 0.</math>

Můžeme také definovat [[Podmíněná entropie|podmíněnou entropii]] dvou událostí <math>X</math> a <math>Y</math>, které nabývají hodnoty <math>x_i</math> a <math>y_j</math>, vzorcem

:<math> \Eta(X|Y)=-\sum_{i,j}p(x_{i},y_{j})\log\frac{p(x_{i},y_{j})}{p(y_{j})}</math>

kde <math>p(x_i,y_j)</math> je pravděpodobnost, že <math>X=x_i</math> a <math>Y=y_j</math>. Tuto hodnotu chápeme jako množství náhodnosti v náhodné proměnné <math>X</math> pro danou hodnotu náhodné proměnné <math>Y</math>.

== Příklad ==
[[Soubor:Binary entropy plot.svg|thumbnail|vpravo|200px|Entropie {{math|Η(''X'')}} (tj. [[střední hodnota|střední]] [[vlastní informace|překvapení]]) vrhu mincí měřené v bitech vynesené podle poctivosti mince {{math|Pr(''X'' {{=}} 1)}}, kde {{math|''X'' {{=}} 1}} reprezentuje padnutí panny.<br />Entropie je v tomto případě nejvýše 1 bit a předání výsledku vrhu mincí (se dvěma možnými výsledky) vyžaduje průměrně nejvýše 1 bit informace (pro poctivou minci je to přesně 1 bit). Zakódování vrhu poctivou kostkou (6 hodnot se stejnou pravděpodobností) vyžaduje průměrně log<sub>2</sub>6 bitů.]]
{{Podrobně|Binární funkce entropie|Bernoulliho proces}}
Uvažujme házení mincí se známými, ne nutně poctivými pravděpodobnostmi, že padne panna nebo orel; to lze modelovat [[Bernoulliho proces]]em.

Entropie neznámého výsledku dalšího vrhu mincí je nejvyšší, jestliže mince je poctivá (tj. jestliže panna i orel mají stejnou pravděpodobnost 1/2). U poctivé mince je nejobtížnější předpovídat výsledek dalšího vrhu; výsledek každého vrhu mincí přináší celý jeden [[bit]] informace. Důvodem je, že
:<math>\begin{align}
\Eta(X) &= -\sum_{i=1}^n {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)}
\\ &= -\sum_{i=1}^2 {\frac{1}{2}\log_2{\frac{1}{2}}}
\\ &= -\sum_{i=1}^2 {\frac{1}{2} \cdot (-1)} = 1
\end{align}</math>

Pokud však víme, že mince není poctivá, ale pravděpodobnosti hodu panny případně orla jsou {{math|''p''}}, příp. {{math|''q''}}, kde {{math|''p'' ≠ ''q''}}, pak je nejistota menší. Při každém vrhu je pravděpodobnější, že padne jedna strana než druhá. Snížení nejistoty je kvantifikováno nižší entropií: každý vrh mincí přináší v průměru méně než jeden [[bit]] informace. Jestliže například {{math|''p''}}=0,7, pak
:<math displej="blok">\begin{align}
\Eta(X) &= - p \log_2 (p) - q \log_2 (q)
\\ &= - 0,7 \log_2 (0,7) - 0,3 \log_2 (0,3)
\\ &\approx - 0,7 \cdot (-0,515) - 0,3 \cdot (-1,737)
\\ &= 0,8816 < 1
\end{align}</math>

Rovnoměrné rozdělení pravděpodobnosti má maximální nejistotu a tedy maximální entropii. Entropie se pak může pouze snížit z hodnoty odpovídající rovnoměrné pravděpodobnosti. Extrémním případem je, že mince má dvě panny, takže nikdy nemůže padnout orel, nebo dva orly, takže nikdy nemuže padnout panna. Vrh takovou mincí v sobě neobsahuje žádnou nejistotu, žádnou novou informaci, protože výsledek vrhu je předem známý, takže entropie je nulová.

Entropii lze normalizovat tím, že ji vydělíme délkou informace. Výsledný poměr se nazývá [[metrika entropie]] a je mírou náhodnosti informace.

== Zdůvodnění ==
Pro pochopení významu {{math|-∑ ''p''<sub>''i''</sub> log(''p''<sub>''i''</sub>)}}, nejdříve definujeme informační funkce {{math|I}} pomocí událost {{math|''i''}} s pravděpodobností {{math|''p''<sub>''i''</sub>}}. Množství informace dosažena kvůli pozorování události {{math|''i''}} vyplývá z Shannonova řešení základní [[Entropie (teorie informace)#Charakterizace|vlastnosti]] [[Informace obsah|informace]]:<ref>{{Citace monografie
| příjmení = Carter
| jméno = Tom
| datum = březen 2014
| titul = An introduction to information theory and entropy
| url = http://csustan.csustan.edu/~tom/Lecture-Notes/Information-Theory/info-lec.pdf
| místo = Santa Fe
| strany =
| isbn =
| přístup-datum = 2017-08-04}}</ref>
# {{math|I(''p'')}} je [[monotonně klesající]] v {{math|''p''}} : zvýšení pravděpodobnosti události snižuje množství informace z pozorování události a naopak.
# {{math|I(''p'') ≥ 0}} : informace je [[Nezáporné číslo|nezáporná]] veličina.
# {{math|I(1) {{=}} 0}} : události, ke kterým dojde vždy, nepřinášejí žádnou informaci.
# {{math|I(''p''<sub>1</sub> ''p''<sub>2</sub>) {{=}} I(''p''<sub>1</sub>) + I(''p''<sub>2</sub>)}} : informace [[Nezávislá událost|nezávislých událostí]] je aditivní.

Klíčová je poslední vlastnost. Říká, že sdružená pravděpodobnost nezávislých zdrojů informace přináší stejné množství informace jako obě události samostatně. Speciálně jestliže první událost je jedním z {{math|''n''}} [[stejně pravděpodobný]]ch výsledků a druhá jedním z {{math|''m''}} stejně pravděpodobných výsledků, pak sdružená událost má {{math|''mn''}} možných výsledků. To znamená, že jestliže je potřeba {{math|log<sub>2</sub>(''n'')}} bitů pro zakódování první hodnoty a {{math|log<sub>2</sub>(''m'')}} bitů pro zakódování druhé, potřebujeme {{math|log<sub>2</sub>(''mn'') {{=}} log<sub>2</sub>(''m'') + log<sub>2</sub>(''n'')}} pro zakódování obou. Shannon objevil, že funkce pro určení množství informace, zachovávající tuto aditivitu, je logaritmická, tj.,

:<math>\mathrm{I}(p) = \log\left(\tfrac{1}{p}\right) = -\log(p):</math>

Jestliže <math displej="inline">I</math> je informační funkce, o které předpokládáme, že je dvakrát spojitě derivovatelná, dostáváme:

:<math>\begin{array}{lcl}
I(p_1 p_2) &=& I(p_1) + I(p_2) \\
p_2 I'(p_1 p_2) &=& I'(p_1) \\
I'(p_1 p_2) + p_1 p_2 I''(p_1 p_2) &=& 0 \\
I'(u) + u I''(u) &=& 0 \\
(u \mapsto u I'(u))' &=& 0
\end{array}</math>

Tato [[diferenciální rovnice]] má k řešení <math>I(u) = k \log u</math> pro jakékoli <math>k \in \mathbb{R}</math>. Z podmínky 2. vyplývá, že k <math>k < 0</math>. <math>k </math> lze zvolit ve tvaru <math>k = - 1/\log x</math> pro <math>x > 1</math>, což je ekvivalentní s výběrem určitého [[Logaritmus|základu logaritmu]]. Různé [[Jednotka informace|jednotky informace]] ([[bit]]y pro [[Logaritmus#Binární logaritmus|binární logaritmus]] {{math|log<sub>2</sub>}}, [[Nat (jednotka)|naty]] pro [[Logaritmus#Přirozený logaritmus|přirozený logaritmus]] {{math|ln}}, [[Ban (jednotka)|bany]] pro [[Logaritmus#Desítkový logaritmus|desítkový logaritmus]] {{math|log<sub>10</sub>}} atd.) jsou [[Přímá úměrnost|konstantní násobky]] jiného. Pokud například uvažujeme vrh poctivou mincí, hození panny dává {{math|log<sub>2</sub>(2) {{=}} 1}} bit informace, což je přibližně 0,693&nbsp;natů nebo 0,301&nbsp;desítkových číslic. {{math|''n''}} vrhů přináší díky aditivitě {{math|''n''}} bitů informace, což je přibližně {{math|0,693''n''}} natů nebo {{math|0,301''n''}} desítkových číslic.

Pokud existuje rozdělení, u kterého událost {{math|''i''}} může nastat s pravděpodobností {{math|''p''<sub>''i''</sub>}} a provedeme {{math|''N''}} pokusů, při kterých výsledek {{math|''i''}} nastane {{math|''n''<sub>''i''</sub> {{=}} ''N'' ''p''<sub>''i''</sub>}} krát, celkové množství přijaté informace je
:<math>\sum_i {n_i \mathrm{I}(p_i)} = -\sum_i {N p_i \log{p_i}}</math>.
''[[Aritmetický průměr|Průměrné]]'' množství informace, kterou získáme z události je proto
:<math>-\sum_i {p_i \log {p_i}}.</math>

== Aspekty ==

=== Vztah k termodynamické entropii ===
<!-- {{Podrobně|Entropie v termodynamice a teorii informace}} -->
Inspirace pro použití slova ''entropie'' v teorii informace pochází z podobnosti mezi Shannonovým vzorcem a velmi podobnými vzorci známými ze [[Statistická mechanika|statistické mechaniky]].

Nejobecnější vzorec pro termodynamickou [[entropie|entropii]] {{math|''S''}} [[Termodynamický systém|termodynamického systému]] ve [[Statistická termodynamika|statistické termodynamice]] je [[Gibbsova entropie]]:
:<math>S = - k_\text{B} \sum p_i \ln p_i \,</math>
kde {{math|''k''<sub>B</sub>}} je [[Boltzmannova konstanta]] a {{math|''p''<sub>''i''</sub>}} je pravděpodobnost [[Mikrostav (statistická mechanika)|mikrostavu]]. [[Entropie|Gibbsovu entropii]] definoval [[J. Willard Gibbs]] v roce 1878, krátce po publikaci díla [[Ludwig Boltzmann|Ludwiga Boltzmanna]] v roce 1872.<ref>Srovnejte: Boltzmann, Ludwig (1896, 1898). Vorlesungen über Gastheorie : 2 Volumes – Lipsko 1895/98 UB: O 5262-6. anglická verze: Lectures on gas theory. Překlad Stephen G. Brush (1964) Berkeley: University of California Press; (1995) New York: Dover {{isbn|0-486-68455-5}}</ref>

Gibbsovu entropii lze použít téměř nezměněnou ve světě [[Kvantová fyzika|kvantové fyziky]], kde dává [[von Neumannova entropie|von Neumannovu entropii]], kterou zavedl [[John von Neumann]] v roce 1927:
:<math>S = - k_\text{B} \,{\rm Tr}(\rho \ln \rho) \,</math>
kde ρ je [[Operátor hustoty|matice hustoty]] kvantově mechanického systému a Tr je [[Stopa (lineární algebra)|stopa matice]].

Při každodenním praktickém používání není spojitost mezi informační entropií a termodynamickou entropií evidentní. Fyzici a chemici se spíše zajímají o ''změny'' entropie, protože systém se vyvíjí spontánně ze svých počátečních podmínek ve shodě s [[Druhý termodynamický zákon|druhým zákonem termodynamiky]], než o neměnné rozdělení pravděpodobnosti. Malá hodnota [[Boltzmannova konstanta|Boltzmannovy konstanty]] {{math|''k''<sub>B</sub>}} ukazuje, že změny {{math|''S'' / ''k''<sub>B</sub>}} i pro velmi malé množství látky v chemických a fyzikálních procesech reprezentuje entropii, která je extrémně velké v porovnání s čímkoli při [[komprese dat|kompresi dat]] nebo [[zpracování signálu]]. V klasické termodynamice je entropie definována pomocí makroskopických měření bez odkazů na nějaké rozdělení pravděpodobnosti, což je hlavním aspektem pro definici informační entropie.

Spojení mezi termodynamikou a tím, co nyní nazýváme teorie informace, si poprvé všiml [[Ludwig Boltzmann]], který jej vyjádřil svou [[Boltzmannův vzorec pro entropii|proslulou rovnicí]]:

:<math>S=k_\text{B} \ln(W)</math>

kde <math>S</math> je termodynamická entropie určitého makroskopický stavu (definovaná termodynamickými parametry jako například teplotou, objemem, energií, atd.), ''W'' je počet mikroskopický stavů (různé kombinace částic v různých energetických stavech), které mohou dávat daný makroskopický stav a ''k<sub>B</sub>'' je [[Boltzmannova konstanta]]. je předpokládali, že každý mikroskopický stav je stejně pravděpodobně, takže pravděpodobnost daného mikroskopický stavu je ''p<sub>i</sub> = 1/W''. Když tyto pravděpodobnosti jsou substituted do výše uvedený výraz pro Gibbsovu entropii (nebo ekvivalentně ''k<sub>B</sub>'' krát Shannonova entropie), Boltzmannova rovnice výsledky. Při použití termíny z teorie informace je informační entropie systému množství „chybějící“ informace potřebné pro určení mikroskopického stavu je-li dán makroskopický stav.

V přístupu [[Edwin Thompson Jaynes|Edwina Thompsona Jaynese]] (1957) se na termodynamickou entropii, jak ji vysvětluje [[statistická mechanika]], musí nahlížet jako na ''aplikaci'' Shannonovy teorie informace: termodynamická entropie je interpretována jako úměrné množství další Shannonovy informace potřebné pro definování podrobného mikroskopického stavu systému, který zůstává při popisu výhradně makroskopickou proměnnou klasické termodynamiky nepoznán, s konstantou proporcionality je pouze [[Boltzmannova konstanta]]. Sčítání teplo na systém zvyšuje jeho termodynamický entropie protože to zvyšuje počet možných mikroskopických stavů systému, které jsou konzistentní s měřitelnou hodnotou své makroskopické proměnné, udělání jakýkoli úplná stav popis delší. (Viz článek: ''[[maximální entropie termodynamika]]''). [[Maxwellův demon]] může (hypoteticky) omezit termodynamickou entropii systému pomocí informace o stavech jednotlivých molekul; ale jak [[Rolf Landauer|Landauer]] (v roce 1961) a spolupracovníci ukázali, aby démon sám fungoval, musí zvyšovat termodynamickou entropii v proces, alespoň o množství Shannonovy informace, kterou navrhuje nejdřív získat a uložit; a tak celkový termodynamický entropie nesnižuje (což řeší paradox). [[Landauerův princip]] vynutí dolní mez množství tepla, které počítač musí vytvořit při zpracování daného množství informace, i když moderní počítače jsou daleko méně efektivní.

=== Entropie jako informační obsah ===
{{Podrobně|Shannonova věta o zdrojovém kódování}}
Entropie je definovaná v kontextu pravděpodobnostního modelu. Nezávislý vrh poctivou mincí má entropii 1 bit na hod. Zdroj, které vždy generuje dlouhý řetězec znaků B má entropii 0, protože následující znak bude vždy 'B'.

[[poměr entropie]] datového zdroje je průměrný počet [[bit]]ů na symbol potřebné kódovat to. Shannonovy pokusy s lidský predictors ukazují informační poměr mezi 0,6 a 1,3 bitů na znak v anglickém textu;<ref>{{Citace elektronické monografie
| url = http://marknelson.us/2006/08/24/the-hutter-prize/
| titul = The Hutter Prize
| datum přístupu = 2008-11-27
| datum = 2006-08-24
| autor = Mark Nelson}}</ref> [[komprimační algoritmus PPM]] může dosáhnout komprimačního poměru anglického textu 1,5 bitu na znak.

V předchozím příkladě jsou důležité tyto body:

# Množství entropie není vždy celočíselný počet bitů.
# Mnoho datových bitů nenese žádné informace. Například datové struktury často obsahují redundantní informace nebo mají identické části bez ohledu na informace v datové struktuře.

Pokud je Shannonova definice entropie aplikována na zdroj informace, může určovat minimální kapacitu kanálu požadovanou pro spolehlivé vysílat zdrojový jako zakódovaných binárních číslic (viz varování níže v kurzívě). Vzorec může být odvozen výpočtem matematického očekávání ''množství informace'' obsažené v číslice ze zdroje informace. ''Viz také'' [[Shannonova–Hartleyova věta]].

Shannonova entropie míry informace obsažená ve zprávě jako protiklad k části zprávy, která je pevně určena (nebo předvídatelná). '' K dalším příkladům patří redundance ve struktuře jazyka nebo statistické vlastnosti týkající se frekvence výskytu dvojic nebo trojic písmen nebo slov, atd.'' Viz [[Markovův řetěz]].

=== Entropie jako míra rozmanitosti ===
{{Podrobně|Index rozmanitosti}}
Entropie je jedním ze způsobů, jak měřit rozmanitost. Konkrétně Shannonova entropie je logaritmus {{math|<sup>1</sup>D}}, [[skutečný rozmanitost]] index s parametr rovné 1.

=== Komprese dat ===
{{Podrobně|Komprimace dat}}
Entropie efektivně limituje výkonnost nejsilnějšího bezztrátového komprimační možné, což lze teoreticky provést pomocí [[typický množina]] nebo v praxi pomocí [[Huffmanovo kódování|Huffmanova kódování]], [[LZW|Lempel–Ziv]] nebo [[aritmetické kódování|aritmetického kódování]]. Viz také [[Kolmogorovova složitost]]. V praxi komprimační algoritmy úmyslně zahrnují nějaké judicious redundance ve formě [[kontrolní součet|kontrolního součtu]] pro zabezpečení proti chybám.

=== Světová technologická kapacita uložených a přenášených informací ===
Studie z roku 2011 v časopisu ''[[Science]]'' odhaduje světovou technologickou kapacitu pro uložení a přenos optimálně komprimovaných informací normalizovanou na nejefektivnější komprimační algoritmy dostupné v roce 2007, je vlastně odhadem entropie technologicky dostupný zdrojů.<ref name="HilbertLopez2011">[http://www.sciencemag.org/content/332/6025/60 "The World's Technological Capacity to Store, Communicate, and Compute Information"], Martin Hilbert a Priscila López (2011), [[Science]], 332(6025); volný přístup k článku: [martinhilbert.net/WorldInfoCapacity.html]</ref> {{rp|60–65}}
{| class="wikitable"
|+
Hodnoty v entropicky komprimovaných [[exabyte]]ch
|-
! Typ Informace !! 1986 !! 2007
|-
| Uložení || 2,6 || 295
|-
| Vysílání || 432 || 1900
|-
| Telekomunikace || 0,281 || 65
|}
Autoři odhadli technologickou kapacitu pro uložení (plně entropicky komprimovaných) informací, kterou má lidstvo k dispozici, v roce 1986 a 2007. Informace rozdělují do tří kategorií: objem datových médií, která byla k dispozici pro ukládání informací, množství informací předaných pomocí jednosměrných [[vysílání|vysílacích]] sítí a výměnu informací pomocí obousměrných [[telekomunikace|telekomunikační]] sítí.<ref name="HilbertLopez2011"/>

=== Omezení entropie jako informačního obsahu ===
Existuje několik dalších konceptů příbuzných entropii, které určitým způsobem matematicky kvantifikují informační obsah:
* '''[[Vlastní informace]]''' jednotlivé zprávy nebo symbolu vzatého z daného rozdělení pravděpodobnosti,
* '''entropie''' daného rozdělení pravděpodobnosti zpráv nebo symbolů a
* '''[[poměr entropie]]''' [[stochastický proces|stochastického procesu]].
(pro určité posloupnosti zpráv nebo symbolů generované daným stochastickým procesem může také definovat „poměr vlastní informace“, který je vždy roven poměru entropie v případě [[stacionární proces|stacionárního procesu]].) Jiná [[množství informace]] se také používají pro porovnávání různých zdrojů informace.

Výše uvedené koncepty si nesmíme plést. Často je zřejmé pouze z kontextu, který koncept se myslí. Když například někdo říká, že „entropie“ angličtiny je asi 1 bit na znak, jedná se o modelování angličtiny jako stochastického procesu a mluví se o ''poměru'' entropie. I sám Shannon používal termín podobně.

Při použití velmi velkých bloků může být odhad entropie na jeden znak uměle nízký, protože rozdělení pravděpodobnosti posloupnosti není známo přesně; je to pouze odhad. Pokud bychom uvažovali text každé dosud publikované knihy jako posloupnost, a text celé knihy bychom považovali za symbol, a jestliže je celkem {{math|''N''}} publikovaných knih a každá kniha je publikovaná pouze jednou, odhad pravděpodobnosti každé knihy je {{math|1/''N''}} a entropie (v bitech) je {{math|−log<sub>2</sub>(1/''N'') {{=}} log<sub>2</sub>(''N'')}}. Jako praktický kód to odpovídá přiřazení [[ISBN|jednoznačného identifikátoru]] každé knize a používat ho místo textu knihy, když se chceme odkázat na text knihy. To je mimořádně užitečné pro mluvení o knihách, ale není to tak užitečné pro charakterizaci informačního obsahu jednotlivých knih nebo jazyka obecně: z identifikátoru knihy nelze rekonstruovat obsah knihy bez znalosti rozdělení pravděpodobnosti, tj. úplného textu všech knih. Klíčovou myšlenkou je, že musíme uvažovat složitost pravděpodobnostního modelu. [[Kolmogorovova složitost]] je teoretické zobecnění této myšlenky, která umožňuje zvážení informačního obsahu posloupnosti nezávislý na jakýkoli určitý pravděpodobnost model; uvažuje nejkratší [[Počítačový program|program]] pro [[univerzální počítač]], který vytvoří požadovanou posloupnost. Kód, který dosahuje poměru entropie posloupnosti pro daný model, plus kódová kniha (tj. pravděpodobnostní model), je jedním takovým programem, ale nemusí být nejkratší.

Fibonacciho posloupnost je 1, 1, 2, 3, 5, 8, 13, .... pokud uvažujeme posloupnost jako zprávu a každé číslo jako symbol, existuje téměř stejně symbolů jako znaků ve zprávě, což dává entropii přibližně {{math|log<sub>2</sub>(''n'')}}. Prvních 128 symbolů Fibonacciho posloupnost má entropii přibližně 7 bitů/symbol, ale posloupnost lze vyjádřit pomocí vzorce [{{math|F(''n'') {{=}} F(''n''−1) + F(''n''−2)}} pro {{math|''n'' {{=}} 3, 4, 5, …}}, {{math|F(1) {{=}}1}}, {{math|F(2) {{=}} 1}}] a toto vzorec má mnohem nižší entropie a je použita na jakýkoli délka Fibonacciho posloupnosti.

=== Omezení entropie v kryptografii ===
V [[Kryptoanalýza|kryptoanalýze]] se entropie často používá jako přibližná míra nepředvídatelnosti kryptografického klíče, jehož reálná [[Princip nejistoty|nejistota]] je neměřitelná. Například 128bitový klíč, který je rovnoměrně a náhodně generovaný, má entropii 128 bitů. Také je třeba (v průměru) <math>2^{128-1}</math> pokusů pro prolomení šifry hrubou silou. Entropie však selhává, jestliže možné klíče nejsou voleny rovnoměrně.<ref>{{Citace sborníku
| jméno = James
| příjmení = Massey
| rok = 1994
| titul = Guessing and Entropy
| sborník = Proc. IEEE International Symposium on Information Theory
| url = http://www.isiweb.ee.ethz.ch/archive/massey_pub/pdf/BI633.pdf
| datum přístupu = 2013-12-31}}</ref><ref>{{Citace sborníku
| jméno = David
| příjmení = Malone
| jméno2 = Wayne
| příjmení2 = Sullivan
| rok = 2005
| titul = Guesswork is not a Substitute for Entropy
| sborník = Proceedings of the Information Technology & Telecommunications Conference
| url = http://www.maths.tcd.ie/~dwmalone/p/itt05.pdf
| datum přístupu = 2013-12-31}}</ref> Místo toho lze použít míru nazývanou ''guesswork'' pro změření úsilí potřebného pro útok hrubou silou.<ref>{{Citace sborníku
| jméno = John
| příjmení = Pliam
| rok = 1999
| titul = Guesswork and variation distance as measures of cipher security
| sborník = International Workshop on Selected Areas in Cryptography
| doi = 10.1007/3-540-46513-8_5 }}</ref>

V kryptografii se mohou objevit další problémy při používání entropie kvůli nerovnoměrnému rozdělení. Například [[jednorázová šifra]], která šifruje text pomocí funkce xor s miliónem binárních číslic. Pokud má tabulka entropii milión bitů, je šifrování dokonalé. Pokud má šifra entropii jen 999&nbsp;999 bitů, rovnoměrně distribuovaný (každý jednotlivý bit jednorázového hesla má entropii 0,999999 bitů) může stále poskytovat dobrou bezpečnost. Ale jestliže jednorázové heslo má entropii 999&nbsp;999 bitů, přičemž první bit je pevný a zbývajících 999&nbsp;999 bitů je naprosto náhodných, první bit šifrového textu nebude vůbec zašifrovaný.

=== Data jako Markovův proces ===
Obvyklý způsob, jak definovat entropii textu, vychází z [[Markovův model|Markovova modelu]] textu. Pro zdroj 0. řádu (každý znak je vybraný nezávisle na posledních znacích) je binární entropie:

:<math>\Eta(\mathcal{S}) = - \sum p_i \log p_i ,</math>

kde {{math|''p''<sub>''i''</sub>}} je pravděpodobnost {{math|''i''}}. Pro [[Markovův zdroj]] prvního řádu (zdroj, u něhož je pravděpodobnost výběru znak závislá pouze na předchozím znaku), '''[[poměr entropie]]''' ({{Vjazyce|en}} {{Cizojazyčně|en|''[[entropy rate]]''}}) je:

:<math>\Eta(\mathcal{S}) = - \sum_i p_i \sum_j \ p_i (j) \log p_i (j) ,</math> {{Citace monografie potřebné
| datum = dubnu 2013}}

kde {{math|''i''}} je '''stav''' ({{Vjazyce|en}} {{Cizojazyčně|en|''state''}}) (určitý předchozí znaky) a <math>p_i(j)</math> je pravděpodobnost {{math|''j''}} daný {{math|''i''}} jako předchozí znak.

Pro Markovův zdroj druhého řádu je poměr entropie

:<math>\Eta(\mathcal{S}) = -\sum_i p_i \sum_j p_i(j) \sum_k p_{i,j}(k)\ \log \ p_{i,j}(k) .</math>

=== {{math|''b''}}-ární entropie ===
Obecně '''{{math|''b''}}-ární entropie''' zdroje <math>\mathcal{S}</math> {{math|{{=}} (''S'', ''P'')}} se [[Zdrojová abeceda|zdrojovou abecedou]] {{math|''S'' {{=}} {''a''<sub>1</sub>, …, ''a''<sub>''n''</sub>}}} a [[Diskrétní rozdělení|diskrétním rozdělením pravděpodobnosti]] {{math|''P'' {{=}} {''p''<sub>1</sub>, …, ''p''<sub>''n''</sub>}}}, kde {{math|''p''<sub>''i''</sub>}} je pravděpodobnost {{math|''a''<sub>''i''</sub>}} (značíme {{math|''p''<sub>''i''</sub> {{=}} ''p''(''a''<sub>''i''</sub>))}} je definovaný vztahem:

:<math> \Eta_b(\mathcal{S}) = - \sum_{i=1}^n p_i \log_b p_i ,</math>

Hodnota {{math|''b''}} v „{{math|''b''}}-ární entropie“ je počet různých symbolů ''ideální abecedy'' používané jako standardní měřítko pro měření zdrojové abecedy. V teorii informace je pro kódování informací [[Nutná a postačující podmínka|nutné a postačující]], aby abeceda obsahovala dva symboly. Proto implicitně pracujeme s {{math|''b'' {{=}} 2}} („binární entropie“). Entropie zdrojové abecedy spolu s daným empirickým rozdělením pravděpodobnosti je číslo rovné počtu (případně zlomkovému) symbolů „ideální abecedy“ s optimálním rozdělením pravděpodobnosti nezbytných pro kódování každého symbolu zdrojové abecedy. Přitom „optimální rozdělení pravděpodobnosti“ zde znamená [[Rovnoměrné rozdělení#Diskrétní rozdělení|rovnoměrné rozdělení]]: zdrojová abeceda s {{math|''n''}} symboly má nejvyšší možnou entropii (mezi abecedami s {{math|''n''}} symboly), je-li rozdělení pravděpodobnosti abecedy rovnoměrné. Ukazuje se, že tato optimální entropie je {{math|log<sub>''b''</sub>(''n'')}}.

== Efektivita ==
Zdrojová abeceda s nerovnoměrným rozdělením bude mít menší entropii, než kdyby její symboly měly rovnoměrné rozdělení („optimalizovaná abeceda“). Tento nedostatek entropie lze vyjádřit poměrem nazývaným efektivita:

:<math>\eta(X) = -\sum_{i=1}^n \frac{p(x_i) \log_b (p(x_i))}{\log_b (n)}
</math>
Použitím základních vlastností logaritmu lze tuto hodnotu také vyjádřit jako:
:<math>\eta(X) = -\sum_{i=1}^n \frac{p(x_i) \log_b (p(x_i))}{\log_b (n)} = \sum_{i=1}^n \frac{\log_b(p(x_i)^{-p(x_i)})}{\log_b(n)} =
\sum_{i=1}^n \log_n(p(x_i)^{-p(x_i)}) =
\log_n (\prod_{i=1}^n p(x_i)^{-p(x_i)})</math>

Efektivita je vhodnou mírou pro využití [[komunikační kanál|komunikačního kanálu]]. Uvedená veličina se také označuje normalizovaná entropie, protože entropie je dělena maximální entropií <math>{\log_b (n)}</math>. Efektivita je navíc nezávislá na volbě základu {{math|''b''}}, jak je ukázáno výše.

== Charakterizace ==
Shannonova entropie je [[charakterizace (matematika)|charakterizována]] malým počtem dále uvedených kritérií. Jakákoli definice entropie, která těmto kritériím vyhovuje, má tvar
:<math>-K\sum_{i=1}^np_i\log (p_i)</math>
kde {{math|''K''}} je konstanta, která závisí na volbě jednotek měření.

V dalším textu budeme psát {{math|''p''<sub>''i''</sub> {{=}} Pr(''X'' {{=}} ''x''<sub>''i''</sub>)}} a {{math|Η<sub>''n''</sub>(''p''<sub>1</sub>, …, ''p''<sub>''n''</sub>) {{=}} Η(''X'')}}.

=== Spojitost ===
Míra musí být [[Spojitá funkce|spojitá]], takže změna hodnoty pravděpodobnosti o velmi malou hodnotu způsobí pouze malou změnu entropie.

=== Symetrie ===
Míra nesmí záviset na pořadí výsledků {{math|''x''<sub>''i''</sub>}}.
:<math>\Eta_n\left(p_1, p_2, \ldots \right) = \Eta_n\left(p_2, p_1, \ldots \right)</math> atd.

=== Maximální ===
Míra musí být maximální, jestliže všechny výsledky jsou stejně pravděpodobně (nejistota je nejvyšší, když všechny možné události mají stejnou pravděpodobnost).
:<math> \Eta_n(p_1,\ldots,p_n) \le \Eta_n\left(\frac{1}{n}, \ldots, \frac{1}{n}\right) = \log_b (n).</math>

Pro stejně pravděpodobné události se entropie musí zvyšovat s počtem výsledků.
:<math>\Eta_n\bigg(\underbrace{\frac{1}{n}, \ldots, \frac{1}{n}}_{n}\bigg) = \log_b(n) < \log_b (n+1) = \Eta_{n+1}\bigg(\underbrace{\frac{1}{n+1}, \ldots, \frac{1}{n+1}}_{n+1}\bigg).</math>

Rozdělení, které má maximální [[diferenciální entropie|diferenciální entropií]] pro spojité náhodné proměnné, je [[vícerozměrné normální rozdělení]].

=== Aditivita ===
Velikost entropie musí být nezávislá na tom, jak je proces rozdělen do složek.

Tato poslední funkcionální podmínka charakterizuje entropii systému se subsystémy. Vyžaduje, aby entropii systému bylo možné spočítat z entropií jeho subsystémů, jestliže interakce mezi subsystémy jsou známé.

Je-li dán soubor {{math|''n''}} rovnoměrně distribuovaných prvků, které jsou rozděleny do {{math|''k''}} podsystémů, každý s {{math|''b''<sub>1</sub>, ..., ''b''<sub>''k''</sub>}} prvky, entropie celého systému se musí rovnat sumě entropií jednotlivých podsystémů a entropií jednotlivých boxů, každý vážený s pravděpodobností, že je v příslušném podsystému.

Pro [[Kladné celé číslo|kladná celá čísla]] {{math|''b''<sub>''i''</sub>}} kde {{math|''b''<sub>1</sub> + … + ''b''<sub>''k''</sub> {{=}} ''n''}},
:<math>\Eta_n\left(\frac{1}{n}, \ldots, \frac{1}{n}\right) = \Eta_k\left(\frac{b_1}{n}, \ldots, \frac{b_k}{n}\right) + \sum_{i=1}^k \frac{b_i}{n} \, \Eta_{b_i}\left(\frac{1}{b_i}, \ldots, \frac{1}{b_i}\right).</math>

Pokud zvolíme {{math|''k'' {{=}} ''n''}}, {{math|''b''<sub>1</sub> {{=}} … {{=}} ''b''<sub>''n''</sub> {{=}} 1}}, z toto vyplývá, že entropie určitého výsledku je nulová: {{math|Η<sub>1</sub>(1) {{=}} 0}}. Z toho vyplývá, že efektivitu zdrojové abecedy s {{math|''n''}} symboly lze definovat jednoduše jako její {{math|''n''}}-ární entropii. Viz také [[Redundance (teorie informace)]].

== Další vlastnosti ==
Shannonova entropie splňuje další vlastnosti; pro některé z nich je užitečné interpretovat entropii jako množství dodané informace (nebo odstraněné nejistoty), kterou přinese zjištění hodnoty náhodné proměnné {{math|''X''}}:

* Přidání nebo odstranění události s nulovou pravděpodobností nepřispívá k entropii:
::<math>\Eta_{n+1}(p_1,\ldots,p_n,0) = \Eta_n(p_1,\ldots,p_n)</math>.
* Entropie diskrétní náhodné proměnné je nezáporné číslo:
::<math>\Eta(X) \ge 0</math>.<ref name="cover1991">{{Citace monografie
| author1 = Thomas M. Cover
| author2 = Joy A. Thomas
| titul = Elements of Information Theory
| vydavatel = Wiley
| místo = Hoboken, New Jersey
| isbn = 978-0-471-24195-9
| datum = 2006-07-18 }}</ref>{{rp|15}}
* Pomocí [[Jensenova nerovnost|Jensenovy nerovnosti]] lze dokázat, že
::<math>\Eta(X) = \operatorname{E}\left[\log_b \left( \frac{1}{p(X)}\right) \right] \leq \log_b \left( \operatorname{E}\left[ \frac{1}{p(X)} \right] \right) = \log_b(n)</math><ref name="cover1991" />.{{rp|29}}
:Této maximální entropie {{math|log<sub>''b''</sub>(''n'')}} je efektivně dosaženo zdrojovou abecedou, která má rovnoměrné rozdělení pravděpodobnosti: nejistota je maximální, když jsou všechny možné události stejně pravděpodobné.
* Entropie nebo množství informace získané vyhodnocením {{math|(''X'',''Y'')}} (tj. vyhodnocování {{math|''X''}} a {{math|''Y''}} současně) se rovná informaci získané provedením dvou pokusů po sobě: nejdříve vyhodnotíme hodnotu {{math|''Y''}}, potom hodnotu {{math|''X''}} se znalostí hodnoty {{math|''Y''}}. To lze napsat jako
::<math> \Eta(X,Y)=\Eta(X|Y)+\Eta(Y)=\Eta(Y|X)+\Eta(X).</math>
* Pokud <math>Y=f(X)</math> kde <math>f</math> je funkce, pak <math>H(f(X)|X) = 0</math>. Použití předchozího vzorce na <math>H(X,f(X))</math> dává
::<math> \Eta(X)+\Eta(f(X)|X)=\Eta(f(X))+\Eta(X|f(X)),</math>
:takže <math>H(f(X)) \le H(X)</math>, entropie proměnná se může pouze snížit, když na druhou náhodnou proměnnou aplikujeme nějakou funkci.
* Pokud {{math|''X''}} a {{math|''Y''}} jsou dvě nezávislé náhodné proměnné, pak znalost hodnoty {{math|''Y''}} neovlivňuje naši znalost hodnoty {{math|''X''}} (protože se proměnné vzájemně neovlivňují):
::<math> \Eta(X|Y)=\Eta(X).</math>
* Entropie dvou současných událostí není větší než suma entropií těchto události samotných, přičemž rovnost nastane, jsou-li obě události nezávislé. Konkrétněji, jestliže {{math|''X''}} a {{math|''Y''}} jsou dvě náhodné proměnné na stejném pravděpodobnostním prostoru a {{math|(''X'', ''Y'')}} označuje jejich kartézský součin, pak
::<math> \Eta(X,Y)\leq \Eta(X)+\Eta(Y).</math>
* Entropie <math>\Eta(p)</math> je [[Konkávní funkce|konkávní]] v pravděpodobnostní funkci <math>p</math>, tj.
::<math>\Eta(\lambda p_1 + (1-\lambda) p_2) \ge \lambda \Eta(p_1) + (1-\lambda) \Eta(p_2)</math>
:pro všechny pravděpodobnostní hmotové funkce <math>p_1,p_2</math> a <math> 0 \le \lambda \le 1</math><ref name="cover1991" />.{{rp|32}}

== Rozšíření diskrétní entropie na spojitý případ ==

=== Diferenciální entropie ===
{{Podrobně|Diferenciální entropie}}

Shannonova entropie je definována pouze pro náhodné proměnné nabývající diskrétních hodnot. Odpovídající vzorec pro spojitou náhodnou proměnnou s [[hustota pravděpodobnosti|hustotou pravděpodobnosti]] {{math|''f''(''x'')}} s konečným nebo nekonečným nosičem <math>\mathbb X</math> na reálné ose je možné definovat analogicky použitím výše uvedeného tvaru entropie jako střední hodnoty:

:<math>h[f] = \operatorname{E}[-\ln (f(x))] = -\int_\mathbb X f(x) \ln (f(x))\, dx.</math>

Tato veličina se obvykle nazývá '''spojitá entropie''' nebo [[diferenciální entropie]]. Předchůdcem spojité entropie {{math|''h''[''f'']}} je výraz pro funkcionál {{math|''Η''}} v [[Boltzmann]]ově [[H-věta|H-větě]].

Přestože analogie mezi oběma funkcemi je sugestivní, je třeba položit otázku, zda je diferenciální entropie povoleným rozšířením Shannonovy diskrétní entropie? Diferenciální entropie postrádá některé vlastnosti Shannonovy diskrétní entropie&nbsp;– může být mimo jiné záporná&nbsp;– proto byly doporučovány opravy, především [[omezující hustota diskrétních bodů]].

Aby bylo možné odpovědět na tuto otázku, je nutné ukázat spojení mezi těmito dvěma funkcemi:

Pro získání obecně konečné míry, když se [[Histogram|velikost intervalů]], na které je rozsah hodnot rozdělen, blíží k nule. V diskrétním případě je velikost intervalu (implicitní) šířkou každého z {{math|''n''}} (konečných nebo nekonečných) intervalů, jejíchž pravděpodobnosti jsou označeny {{math|''p''<sub>''n''</sub>}}. Když uvažujeme rozšíření na spojitý případ, šířka intervalu musí být stanovena explicitně.

Vyjdeme od spojité funkce {{math|''f''}} diskretizované na intervaly velikosti <math>\Delta</math>.
<!-- Obrázek: Diskretizační funkce $ f$ na intervaly šířky $ \Delta$ \includegraphics[šířka=\textwidth]{funkce-s-bins.eps} --><!-- Tento obrázek pochází z v http://planetmath.org/shannonsentropy ale je tam příliš rozbitý -->
Podle věty o střední hodnotě existuje hodnota {{math|''x''<sub>''i''</sub>}} v každém intervalu tak, že

:<math>f(x_i) \Delta = \int_{i\Delta}^{(i+1)\Delta} f(x)\, dx</math>

integrál funkce {{math|''f''}} lze aproximovat (v Riemannovském smyslu) jako

:<math>\int_{-\infty}^{\infty} f(x)\, dx = \lim_{\Delta \to 0} \sum_{i = -\infty}^{\infty} f(x_i) \Delta</math>

kde tato limita odpovídá tomu, že „velikost intervalu se blíží k nule“.

Označíme

:<math>\Eta^{\Delta} := - \sum_{i=-\infty}^{\infty} f(x_i) \Delta \log \left( f(x_i) \Delta \right)</math>

a rozepsáním logaritmu dostáváme

:<math>\Eta^{\Delta} = - \sum_{i=-\infty}^{\infty} f(x_i) \Delta \log (f(x_i)) -\sum_{i=-\infty}^{\infty} f(x_i) \Delta \log (\Delta).</math>

Pro Δ → 0 máme

:<math>\begin{align}
\sum_{i=-\infty}^{\infty} f(x_i) \Delta &\to \int_{-\infty}^{\infty} f(x)\, dx = 1 \\
\sum_{i=-\infty}^{\infty} f(x_i) \Delta \log (f(x_i)) &\to \int_{-\infty}^{\infty} f(x) \log f(x)\, dx.
\end{align}</math>

Pamatujte, že {{math|log(Δ) → −∞}} pro {{math|Δ → 0}}, vyžaduje speciální definici diferenciální nebo spojité entropie:

:<math>h[f] = \lim_{\Delta \to 0} \left(\Eta^{\Delta} + \log \Delta\right) = -\int_{-\infty}^{\infty} f(x) \log f(x)\,dx,</math>

čemuž říkáme, jak již bylo řečeno, '''diferenciální entropie'''. To znamená, že diferenciální entropie ''není'' limitou Shannonovy entropie pro {{math|''n'' → ∞}}. Naopak, liší se od limity Shannonovy entropie o nekonečné posunutí (viz také článek [[informační rozměr]]).

=== Omezení hustoty diskrétních bodů ===
{{Podrobně|Omezení hustoty diskrétních bodů}}

Ukazuje se, že diferenciální entropie, na rozdíl od Shannonovy entropie, obecně ''není'' dobrou mírou nejistoty nebo informace. Diferenciální entropie může být například záporná; také není invariantní vůči spojité transformaci souřadnic. Tento problém může být ilustrován změnou jednotek, pokud by ''x'' byla veličina, která má fyzikální rozměr. ''f(x)'' pak bude mít rozměr ''1/x''. Argument logaritmu musí být bezrozměrný, jinak je nevlastní, takže diferenciální entropie definovaná výše bude nevlastní. Pokud ''&Delta;'' je nějaká „standardní“ hodnota ''x'' (tj. „velikost intervalu“) a proto má stejný rozměr, pak lze modifikovanou diferenciální entropii zapsat v patřičném tvaru jako:

:<math>
H=\int_{-\infty}^\infty f(x) \log(f(x)\,\Delta)\,dx
</math>

Přičemž výsledek bude stejný pro jakoukoli volbu jednotek veličiny ''x''. Totiž limita diskrétní entropie pro <math> N \rightarrow \infty </math> by také obsahovala člen <math> \log(N)</math>, který by obecně byl nekonečný. To se dalo očekávat, protože po změně spojitých proměnných na diskrétní obvykle vyjde entropie nekonečná. [[Omezující hustota diskrétních bodů]] je skutečně mírou, o kolik snazší je popsat nějaké rozdělení než rozdělení, které je rovnoměrně přes své kvantizační schéma.

=== Relativní entropie ===
{{hlavní|Zobecněná relativní entropie}}
Další užitečnou mírou entropie, která funguje stejně dobře pro diskrétní i spojitý případ, je '''relativní entropie''' rozdělení. Je definovaná jako [[Kullbackova–Leiblerova divergence]] z rozdělení na reference míra {{math|''m''}} takto. Předpokládejme, že rozdělení pravděpodobnosti {{math|''p''}} je [[Absolutně spojitá funkce|absolutně spojité]] vzhledem k míře {{math|''m''}}, tj. má tvar {{math|''p''(''dx'') {{=}} ''f''(''x'')''m''(''dx'')}} pro nějakou nezápornou {{math|''m''}}-integrovatelnou funkci {{math|''f''}} s {{math|''m''}}-integrálem 1, pak lze relativní entropii definovat jako
:<math>D_{\mathrm{KL}}(p \| m ) = \int \log (f(x)) p(dx) = \int f(x)\log (f(x)) m(dx) .</math>

V tomto tvaru relativní entropie zobecňuje (až na změnu znaménka) jak diskrétní entropii, kde míra {{math|''m''}} je [[počítací míra]], tak diferenciální entropii, kde míra {{math|''m''}} je [[Lebesgueova míra]]. Pokud míra {{math|''m''}} je samotné rozdělení pravděpodobnosti, relativní entropie je nezáporná, a je nulová, jestliže {{math|''p'' {{=}} ''m''}} jako míry. Je definována pro jakýkoli prostor s mírou, je tedy nezávislá na souřadnicích a invariantní při reparameterizaci souřadnic, jestliže správně bereme v úvahu transformaci míry {{math|''m''}}. Relativní entropie a implicitně entropie a diferenciální entropie, závisí na „referenční“ míře {{math|''m''}}.

== Použití v kombinatorice ==
Entropie se stala užitečnou veličinou v [[kombinatorika|kombinatorice]].

=== Loomisova–Whitneyova nerovnost ===
Jejím jednoduchým příkladem je alternativní důkaz [[Loomisova–Whitneyova nerovnost|Loomisovy–Whitneyovy nerovnosti]]: pro každou podmnožinu {{math|''A'' ⊆ '''Z'''<sup>''d''</sup>}}, máme
:<math> |A|^{d-1}\leq \prod_{i=1}^{d} |P_{i}(A)|</math>
kde {{math|''P''<sub>''i''</sub>}} je [[ortogonální projekce]] v {{math|''i''}}-té souřadnici:
:<math> P_{i}(A)=\{(x_{1}, \ldots, x_{i-1}, x_{i+1}, \ldots, x_{d}) : (x_{1}, \ldots, x_{d})\in A\}.</math>

Důkaz je jednoduchým důsledkem [[Shearerova nerovnost|Shearerovy nerovnosti]]:, jestliže {{math|''X''<sub>1</sub>, …, ''X''<sub>''d''</sub>}} jsou náhodné proměnné a {{math|''S''<sub>1</sub>, …, ''S''<sub>''n''</sub>}} jsou podmnožiny množiny {{math|{1, …, ''d''}}} takové, že každé celé číslo mezi 1 a {{math|''d''}} leží přesně v {{math|''r''}} těchto podmnožinách, pak
:<math> \Eta[(X_{1}, \ldots ,X_{d})]\leq \frac{1}{r}\sum_{i=1}^{n}\Eta[(X_{j})_{j\in S_{i}}]</math>
kde <math> (X_{j})_{j\in S_{i}}</math> je kartézský součin náhodné proměnné {{math|''X''<sub>''j''</sub>}} s indexy {{math|''j''}} v {{math|''S''<sub>''i''</sub>}} (takže rozměry tohoto vektoru se rovnají velikosti {{math|''S''<sub>''i''</sub>}}).

Načrtneme, jak z uvedeného vyplývá Loomisova–Whitneyova nerovnost: Nechť {{math|''X''}} je rovnoměrně distribuovaná náhodná proměnná s hodnotami v {{math|''A''}}, takže každá hodnota {{math|''A''}} má stejnou pravděpodobnost. Pak (z dalších vlastností entropie zmíněných výše) <math> \Eta(X) = \log |A|</math>, kde <math>|A|</math> označuje [[mohutnost množiny]] <math>A</math>. Nechť {{math|''S''<sub>''i''</sub> {{=}} {1, 2, …, ''i''−1, ''i''+1, …, ''d''}}}. Hodnoty <math>(X_{j})_{j\in S_{i}}</math> jsou obsaženy v {{math|''P''<sub>''i''</sub>(''A'')}}, a tedy <math> \Eta[(X_{j})_{j\in S_{i}}]\leq \log |P_{i}(A)|</math>. To nyní použijeme pro omezení pravé strany Shearerovy nerovnosti a aplikujeme exponenciální funkci na obě strany výsledné nerovnosti.

=== Aproximace binomickým koeficientem ===
Pro celá čísla {{math|0 < ''k'' < ''n''}} položíme {{math|''q'' {{=}} ''k''/''n''}}. Pak
:<math>\frac{2^{n\Eta(q)}}{n+1} \leq \tbinom nk \leq 2^{n\Eta(q)},</math>
kde
:<math>\Eta(q) = -q \log_2(q) - (1-q) \log_2(1-q).</math><ref>Aoki, New Approaches to Macroeconomic Modeling.</ref>{{rp|43}}

Zde je náčrt důkazu. Uvědomíme si, že <math>\tbinom nk q^{qn}(1-q)^{n-nq}</math> je jeden člen výrazu
:<math>\sum_{i=0}^n \tbinom ni q^i(1-q)^{n-i} = (q + (1-q))^n = 1.</math>
Přeskupení dává horní mez. Pro dolní mez musíme nejdřív ukázat pomocí nějaké algebry, že se jedná o největší člen v sumě. Ale pak,
:<math>\binom nk q^{qn}(1-q)^{n-nq} \geq \frac{1}{n+1}</math>
protože suma má {{math|''n'' + 1}} členů. Přeskupení dává dolní mez.

Hezkým důsledkem je, že počet binárních řetězců délky {{math|''n''}}, které obsahují přesně {{math|''k''}} jedniček, je přibližně <math>2^{n\Eta(k/n)}</math>.<ref>Probability and Computing, M. Mitzenmacher and E. Upfal, Cambridge University Press</ref>

== Odkazy ==
=== Související články ===

* [[Podmíněná entropie]]
* [[Křížová entropie]] – je míra průměrného počtu bitů potřebné pro identifikaci události ze sady možností mezi dvěma rozděleními pravděpodobnosti
* [[Index rozmanitosti]] – alternativa se blíží pro určení množství rozmanitost v rozdělení pravděpodobnosti
* [[Entropie (šipka času)]]
* [[Entropické kódování]] – kódovací schéma, které přiřazuje kódy na symboly tak jako vyhovovat délkám kódu s pravděpodobností symbolů.
* [[Odhad entropie]]
* [[Entropie výkon nerovnost]]
* [[Poměr entropií]]
* [[Fisherova informace]]
* [[Grafová entropie]]
* [[Hammingova vzdálenost]]
* [[Historie entropie]]
* [[Historie teorie informace]]
* [[Informační geometrie]]
* [[Sdružená entropie]] – je míra kolik entropie je obsaženo ve sdruženém systému dvou náhodných proměnných.
* [[Kolmogorov–Sinai entropie]] v [[dynamický systém]]s
* [[Levenštejnova vzdálenost]]
* [[Vzájemná informace]]
* [[Negentropie]]
* [[Perplexita]]
* [[Kvalitativní variace]] – jiné míry [[Variabilita|variability]] pro [[Typy proměnných|nominální distribuce]]
* [[Kvantová relativní entropie]] – míra rozlišitelnosti mezi dvěma kvantovými stavy.
* [[Rényiho entropie]] – zobecnění Shannonovy entropie; je jedním z rodiny funkcionálů pro kvantifikaci rozmanitosti, nejistoty nebo náhodnosti systému.
* [[Náhoda]]
* [[Shannonův index]]
* [[Theilův index]]
* [[Typoglykemie]]

== Odkazy ==
=== Reference ===

{{Překlad|en|Entropy (information theory)|933748908}}
<references />
{{PlanetMath attribution
| id = 968
| titul = Shannon's entropy}}

=== Literatura ===
* Arndt, C. (2004), ''Information Measures: Information and its Description in Science and Engineering'', Springer, {{isbn|978-3-540-40855-0}}
* [[Thomas M. Cover|Cover, T. M.]], Thomas, J. A. (2006), ''Elements of information theory'', 2. Edition. Wiley-Interscience. {{isbn|0-471-24195-4}}.
* Gray, R. M. (2011), ''Entropy and Information Theory'', Springer.
* [[David J. C. MacKay|MacKay, David J. C.]]. ''[http://www.inference.phy.cam.ac.uk/mackay/itila/book.html Information Theory, Inference, and Learning Algorithms]'' Cambridge: Cambridge University Press, 2003. {{isbn|0-521-64298-1}}
* {{Citace monografie
| autoři = Martin, Nathaniel F.G. & Anglie, James W.
| titul = Mathematical Theory of Entropy
| vydavatel = Cambridge University Press
| rok = 2011
| isbn = 978-0-521-17738-2
| url = https://books.google.com/books?id=_77lvx7y8joC}}
* [[Claude Shannon|Shannon, C.E.]], [[Warren Weaver|Weaver, W.]] (1949) ''The Mathematical Theory of Communication'', Univ of Illinois Press. {{isbn|0-252-72548-4}}
* Stone, J. V. (2014), Chapter 1 of [http://jim-stone.staff.shef.ac.uk/BookInfoTheory/InfoTheoryBookMain.html ''Information Theory: A Tutorial Introduction''], University of Sheffield, Anglie. {{isbn|978-0956372857}}.

=== Externí odkazy ===

* {{springer|title=Entropy|id=p/e035740}}
* [http://pespmc1.vub.ac.be/ENTRINFO.html Introduction to entropy and information] na webu [[Principia Cybernetica Web]]
* ''[http://www.mdpi.com/journal/entropy Entropy]'' interdisciplinární časopis o různých aspektech konceptu entropie. Volný přístup.
* [https://web.archive.org/web/20110515195708/http://www.rheingold.com/texts/tft/6.html Description of information entropy from "Tools for Thought" by Howard Rheingold]
* [http://math.ucsd.edu/~crypto/java/ENTROPY/ A java applet representing Shannon's Experiment to Calculate the Entropy of English]
* [https://web.archive.org/web/20190207130355/https://www.autonlab.org/tutorials/infogain.html Slides on information gain and entropy]
*[[Wikibooks:An Intuitive Guide to the Concept of Entropy Arising in Various Sectors of Science|''An Intuitive Guide to the Concept of Entropy Arising in Various Sectors of Science'']] – a wikibook on the interpretation of the concept of entropy.
* [//researchspace.auckland.ac.nz/handle/2292/3427 Network Event Detection With Entropy Measures], Dr. Raimund Eimann, University of Auckland, PDF; 5993&nbsp;kB – PhD práce, která se zabývá tím, jak lze měření entropie použít pro detekci anomálií v sítích.
* [http://rosettacode.org/wiki/Entropy "Entropy"] at [[Rosetta Code]]—repository of implementations of Shannon entropy in different programming languages.
* [http://tuvalu.santafe.edu/~simon/it.pdf "Information Theory for Intelligent People"]. Short introduction to the axioms of information theory, entropy, mutual information, Kullback–Liebler divergence, and Jensen–Shannon distance.
* [http://www.shannonentropy.netmark.pl Online tool for calculating entropy (plain text)]
* [//servertest.online/entropy Online tool for calculating entropy (binary)]

{{Portály|Matematika}}

[[Kategorie:Entropie a informace| ]]
[[Kategorie:Teorie informace]]

Verze z 12. 1. 2020, 11:53

Dva bity entropie: Při dvou hodech poctivou mincí je informační entropie vyjádřená v bitech logaritmus o základu 2 počtu možných výsledků; při hodu dvěma mincemi existují čtyři možné výsledky, což odpovídá dvěma bitům entropie. Informační entropie je obecně průměrné množství informace obsažené v události, pokud uvažujeme všechny možné výsledky.

Informační nebo též shannonovská entropie je střední hodnota množství informace připadající na jeden symbol generovaný stochastickým zdrojem dat.

Míra informační entropie přiřazená ke každé možné datové hodnotě je záporným logaritmem pravděpodobnostní funkce dané hodnoty:

kde je střední hodnota definovaná pravděpodobností .[1]

Když datový zdroj vyprodukuje hodnotu (symbol), která má nízkou pravděpodobnost (tj. nastane událost s nízkou pravděpodobností), nese tato událost více „informace“ (způsobí větší „překvapení“), než vyprodukování hodnoty, která má pravděpodobnost vysokou. Pokud množství informace, které nese každá událost, považujeme za náhodnou veličinu, informační entropie je střední hodnota této náhodné události.

Entropie obecně vyjadřuje neuspořádanost nebo nejistotu, a definice entropie používaná v teorii informace je přímou analogií entropie používané ve statistické termodynamice. Koncept informační entropie představil Claude Shannon v roce 1948 ve svém článku „A Mathematical Theory of Communication".[2]

Základní model systému datové komunikace obsahuje tři prvky: zdroj dat, komunikační kanál a přijímač a – jak vyjádřil Shannon – „základním problémem komunikace“ je, aby přijímač byl schopen ze signálu, který přijímá z přenosového kanálu, identifikovat, jaká data byla vygenerovaná zdrojem.[3]:s.379–423 a 623–656 Entropie vyjadřuje absolutní dolní mez průměrné délky bezztrátového kódování dat vytvářených zdrojem. Pokud je entropie zdroje menší než kapacita komunikační kanálu, je možné data generovaná zdrojem spolehlivě přenést k přijímači (alespoň teoreticky, případně se zanedbáním určitých praktických kritérií jako například času potřebného pro přenos dat a složitosti systému k tomuto účelu).

Informační entropie se nejčastěji měří v bitech (kterým se v této souvislosti také říká „shannons“), někdy v „přirozených jednotkách“ (natech) nebo v desítkových číslicích (nazývaný „tečky“, „bans“ nebo „hartleys“). Jednotka měření závisí na základu logaritmu použitého pro výpočet entropie.

Logaritmus rozdělení pravděpodobnosti je vhodný jako míra entropie, protože pro nezávislé zdroje je aditivní. Například entropie vrhu poctivou mincí je 1 bit a entropie m vrhů je m bitů. V přímočaré reprezentaci je potřeba log2(n) bitů pro reprezentaci proměnné, která může nabývat jedné z n hodnot, jestliže n je mocninou dvojky, tj. n = 2k. Pokud jsou všechny hodnoty stejně pravděpodobné, entropie (v bitech) bude log2(n)= k. Pokud se jedna z hodnot bude objevovat častěji než ostatní, pozorování této hodnoty je méně informativní, než kdyby došlo k méně obvyklému výsledku. Naopak pozorování vzácnější události poskytuje více informace. Protože pozorování méně pravděpodobných událostí se objevují méně často, způsobují, že entropie (braná jako průměrná informace) pocházející z nerovnoměrně distribuovaných dat je vždy menší nebo rovna log2(n). Entropie je nulová, pokud je jisté, že nastane jedna určitá událost. Entropie je veličina, která kvantifikuje tato kritéria pro známé rozdělení pravděpodobnosti zdrojových dat. Entropie nezávisí na obsahu pozorovaných událostí (významu zprávy), ale bere v úvahu pouze pravděpodobnosti jejich výskytu. To znamená, že entropie závisí pouze na podkladovém rozdělení pravděpodobnosti, nikoli na významu událostí samých.

Úvod

Základní myšlenkou teorie informace je, že „informační hodnota“ předávané zprávy závisí na míře, jak je obsah zprávy překvapivý. Není žádným překvapením, když dojde k události, která je velmi pravděpodobná. Naopak, v případě málo pravděpodobných událostí, je jejich výskyt mnohem informativnější. Například znalost, že určité číslo nevyhraje v loterii, nese velmi malou informaci, protože jakékoli určité číslo téměř určitě nevyhraje. Ale znalost, že určité číslo v loterii vyhraje, má vysokou informační hodnotu, protože informuje o události s velmi nízkou pravděpodobností. Informační obsah (také nazývaný surprisal – překvapení) události je rostoucí funkcí převrácené hodnoty pravděpodobnosti události, přesněji . Entropie měří očekávané (tj. průměrné) množství informace obsažené v informaci o výsledku náhodného pokusu. Z toho vyplývá, že vrh kostkou má vyšší entropii než házení mincí, protože každý z výsledků vrhu kostkou má menší pravděpodobnost () než každý z výsledků vrhu mincí ().

Entropie je míra nepředvídatelnosti výsledku, jeho průměrného informačního obsahu. Chceme-li získat intuitivní porozumění těmto termínům, můžeme si představit průzkum veřejného mínění. Takové průzkumy se provádějí, aby se zjistila informace, která není známá. To znamená, že výsledek průzkumu je těžko předpověditelný a provedení průzkumu přináší nějakou novou informaci; to je jen jiný způsob jak říct, že apriorní entropie výsledků průzkumu je velká. Pokud by se stejný průzkum prováděl znovu, krátce po prvním průzkumu, když je výsledek prvního průzkum už známý, bylo by možné výsledek druhého průzkum dobře předvídat, a jeho výsledky sotva obsahují mnoho nové informace; to znamená, že apriorní entropie výsledku druhého průzkumu je relativně malá v porovnání s prvním průzkumem.

Uvažujme vrh mincí. Pokud pravděpodobnost padnutí panny je stejná jako pravděpodobnost padnutí orla, pak entropie vrhu mincí je stejně vysoká jako u libovolného pokusu se dvěma stejně pravděpodobnými výsledky. Výsledek vrhu mincí nelze předpovědět: pokud si máme vybrat, neexistuje žádná průměrná výhoda předvídat určitý výsledek, protože každá předpověď bude správná s pravděpodobností . Takový vrh mincí má jeden bit entropie, protože existují dva možné výsledky se stejnou pravděpodobností, a víme, že výsledek má jeden bit informace. Naproti tomu, vrh mincí, které by měla dvě panny a žádného orla má nulovou entropii, protože při vrhu takovou mincí vždy padne panna a výsledek lze dokonale předpovědět. Libovolná událost se stejně pravděpodobnými výsledky má Shannonovu entropii bit. Podobně každý pokus se třemi stejně pravděpodobnými hodnotami obsahuje (asi 1,58496) bitů informace, protože může nabývat jednu ze tří hodnot.

Pokud budeme anglický text považovat za řetězec znaků, má docela nízkou entropii; to znamená, že je docela dobře předvídatelný. I v případě, že nevíme přesně, jaký znak bude následovat, můžeme si být jisti, že například 'e' bude mnohem obvyklejší než 'z', nebo že kombinace 'qu' bude mnohem obvyklejší než 'q' následované jiným písmenem, a že i kombinace 'th' bude obvyklejší než 'z', 'q' nebo 'qu'. Zbytek slova můžeme často odhadnout z několika prvních písmen. Anglický text má entropii 0,6 až 1,3 bitů na znak zprávy.[4]:s.234

Pokud je komprimační schéma bezztrátové – takové, že původní zprávu lze vždy dekomprimovat – pak komprimovaná zpráva obsahuje stejné množství informace jako původní, ale je zakódována méně znaky. Obsahuje tedy více informace na znak (má vyšší entropii). Komprimovaná zpráva má menší redundanci. Shannonova věta o zdrojovém kódování říká, že bezztrátové komprimační schéma nemůže v průměru komprimovat zprávy, aby měly více než jeden bit informace na bit zprávy, ale, že jakoukoli hodnotu menší než jeden bit informace na bit zprávy lze dosáhnout použitím vhodného kódovacího schématu. Entropie zprávy na bit znásobená délkou zprávy je mírou, kolik informace zpráva celkem obsahuje.

Uvažujme, že bychom měli vysílat posloupnosti obsahující 4 znaky 'A', 'B', 'C' a 'D' – například zprávu 'ABADDCAB'. Teorie informace říká, jak spočítat nejmenší možné množství informace, kterou je třeba přenést. Jsou-li všechna 4 písmena stejně pravděpodobná (25 %), není možné najít lepší kódovací schéma (pro binární kanál), než zakódování každého písmene dvěma bity: 'A' například jako '00', 'B' jako '01', 'C' jako '10' a 'D' jako '11'. Pokud se však 'A' objevuje s 70% pravděpodobností, 'B' s 26%, a 'C' i 'D' s 2% pravděpodobností, bylo by možné přiřadit jednotlivým znakům kódy s různou délkou, takže přijetí '1' by znamenalo, že je třeba se podívat na jiný bit pokud žádná posloupnost 2 bitů jedniček už byla přijata. V tomto případě může být 'A' kódované jako '0' (jeden bit), 'B' jako '10' a 'C' a 'D' jako '110' a '111'. Je snadno vidět, že v 70 % případů stačí jeden bit informace, v 26 % případů dvou bitů a pouze ve 4 % případů 3 bitů. Průměrně stačí méně než 2 bity, protože entropie je nižší (kvůli vysoký prevalenci symbolů 'A' následovaných 'B' – současně 96 % znaků). Tento vliv zachycuje výpočet sumy pravděpodobnosti vážené logaritmem míry pravděpodobnosti.

Ze Shannonovy věty také vyplývá, že žádné bezztrátové komprimační schéma nemůže zkrátit úplně všechny zprávy. Pokud některé zprávy vyjdou kratší, alespoň jedna musí vyjít delší kvůli Dirichletově principu. Při praktickém použití to obecně není problém, protože typicky přenášíme pouze určitý typ zpráv, například dokumenty v angličtině nikoli náhodné řetězce znaků, nebo digitální fotografie a nikoli šum, a proto není důležité, že komprimační algoritmus nějaké nepravděpodobné nebo nezajímavé posloupnosti prodlužuje.

Definice

Shannon definoval entropii Η diskrétní náhodné proměnné s možnými hodnotami a pravděpodobnostní funkcí takto:

Pro entropii používá znak Η, řecké velké písmeno eta), podle Boltzmannovy Η-věty. je operátor střední hodnoty a I je informační obsah X.[5]:s.11[6]:s.19–20 je také náhodná proměnná.

Entropii můžeme explicitně zapsat jako

Šablona:Rovnice okno 1

kde b je základ použitého logaritmu. V tomto případě se nejčastěji jako základ b používá hodnota 2, méně často Eulerovo číslo e, nebo 10. Entropie je pak vyjádřena v bitech pro b = 2, jednotkách nazývaných nat pro b = e a ban, hartley nebo dit pro b = 10.[7]

V případě P(xi) = 0 pro nějaké i, hodnota odpovídajícím summand 0 logb(0) je převzaté, aby byla 0, který je konzistentní s limit:

Můžeme také definovat podmíněnou entropii dvou událostí a , které nabývají hodnoty a , vzorcem

kde je pravděpodobnost, že a . Tuto hodnotu chápeme jako množství náhodnosti v náhodné proměnné pro danou hodnotu náhodné proměnné .

Příklad

Entropie Η(X) (tj. střední překvapení) vrhu mincí měřené v bitech vynesené podle poctivosti mince Pr(X = 1), kde X = 1 reprezentuje padnutí panny.
Entropie je v tomto případě nejvýše 1 bit a předání výsledku vrhu mincí (se dvěma možnými výsledky) vyžaduje průměrně nejvýše 1 bit informace (pro poctivou minci je to přesně 1 bit). Zakódování vrhu poctivou kostkou (6 hodnot se stejnou pravděpodobností) vyžaduje průměrně log26 bitů.
Podrobnější informace naleznete v článcích Binární funkce entropie a Bernoulliho proces.

Uvažujme házení mincí se známými, ne nutně poctivými pravděpodobnostmi, že padne panna nebo orel; to lze modelovat Bernoulliho procesem.

Entropie neznámého výsledku dalšího vrhu mincí je nejvyšší, jestliže mince je poctivá (tj. jestliže panna i orel mají stejnou pravděpodobnost 1/2). U poctivé mince je nejobtížnější předpovídat výsledek dalšího vrhu; výsledek každého vrhu mincí přináší celý jeden bit informace. Důvodem je, že

Pokud však víme, že mince není poctivá, ale pravděpodobnosti hodu panny případně orla jsou p, příp. q, kde pq, pak je nejistota menší. Při každém vrhu je pravděpodobnější, že padne jedna strana než druhá. Snížení nejistoty je kvantifikováno nižší entropií: každý vrh mincí přináší v průměru méně než jeden bit informace. Jestliže například p=0,7, pak

Rovnoměrné rozdělení pravděpodobnosti má maximální nejistotu a tedy maximální entropii. Entropie se pak může pouze snížit z hodnoty odpovídající rovnoměrné pravděpodobnosti. Extrémním případem je, že mince má dvě panny, takže nikdy nemůže padnout orel, nebo dva orly, takže nikdy nemuže padnout panna. Vrh takovou mincí v sobě neobsahuje žádnou nejistotu, žádnou novou informaci, protože výsledek vrhu je předem známý, takže entropie je nulová.

Entropii lze normalizovat tím, že ji vydělíme délkou informace. Výsledný poměr se nazývá metrika entropie a je mírou náhodnosti informace.

Zdůvodnění

Pro pochopení významu -∑ pi log(pi), nejdříve definujeme informační funkce I pomocí událost i s pravděpodobností pi. Množství informace dosažena kvůli pozorování události i vyplývá z Shannonova řešení základní vlastnosti informace:[8]

  1. I(p) je monotonně klesající v p : zvýšení pravděpodobnosti události snižuje množství informace z pozorování události a naopak.
  2. I(p) ≥ 0 : informace je nezáporná veličina.
  3. I(1) = 0 : události, ke kterým dojde vždy, nepřinášejí žádnou informaci.
  4. I(p1 p2) = I(p1) + I(p2) : informace nezávislých událostí je aditivní.

Klíčová je poslední vlastnost. Říká, že sdružená pravděpodobnost nezávislých zdrojů informace přináší stejné množství informace jako obě události samostatně. Speciálně jestliže první událost je jedním z n stejně pravděpodobných výsledků a druhá jedním z m stejně pravděpodobných výsledků, pak sdružená událost má mn možných výsledků. To znamená, že jestliže je potřeba log2(n) bitů pro zakódování první hodnoty a log2(m) bitů pro zakódování druhé, potřebujeme log2(mn) = log2(m) + log2(n) pro zakódování obou. Shannon objevil, že funkce pro určení množství informace, zachovávající tuto aditivitu, je logaritmická, tj.,

Jestliže je informační funkce, o které předpokládáme, že je dvakrát spojitě derivovatelná, dostáváme:

Tato diferenciální rovnice má k řešení pro jakékoli . Z podmínky 2. vyplývá, že k . lze zvolit ve tvaru pro , což je ekvivalentní s výběrem určitého základu logaritmu. Různé jednotky informace (bity pro binární logaritmus log2, naty pro přirozený logaritmus ln, bany pro desítkový logaritmus log10 atd.) jsou konstantní násobky jiného. Pokud například uvažujeme vrh poctivou mincí, hození panny dává log2(2) = 1 bit informace, což je přibližně 0,693 natů nebo 0,301 desítkových číslic. n vrhů přináší díky aditivitě n bitů informace, což je přibližně 0,693n natů nebo 0,301n desítkových číslic.

Pokud existuje rozdělení, u kterého událost i může nastat s pravděpodobností pi a provedeme N pokusů, při kterých výsledek i nastane ni = N pi krát, celkové množství přijaté informace je

.

Průměrné množství informace, kterou získáme z události je proto

Aspekty

Vztah k termodynamické entropii

Inspirace pro použití slova entropie v teorii informace pochází z podobnosti mezi Shannonovým vzorcem a velmi podobnými vzorci známými ze statistické mechaniky.

Nejobecnější vzorec pro termodynamickou entropii S termodynamického systému ve statistické termodynamice je Gibbsova entropie:

kde kB je Boltzmannova konstanta a pi je pravděpodobnost mikrostavu. Gibbsovu entropii definoval J. Willard Gibbs v roce 1878, krátce po publikaci díla Ludwiga Boltzmanna v roce 1872.[9]

Gibbsovu entropii lze použít téměř nezměněnou ve světě kvantové fyziky, kde dává von Neumannovu entropii, kterou zavedl John von Neumann v roce 1927:

kde ρ je matice hustoty kvantově mechanického systému a Tr je stopa matice.

Při každodenním praktickém používání není spojitost mezi informační entropií a termodynamickou entropií evidentní. Fyzici a chemici se spíše zajímají o změny entropie, protože systém se vyvíjí spontánně ze svých počátečních podmínek ve shodě s druhým zákonem termodynamiky, než o neměnné rozdělení pravděpodobnosti. Malá hodnota Boltzmannovy konstanty kB ukazuje, že změny S / kB i pro velmi malé množství látky v chemických a fyzikálních procesech reprezentuje entropii, která je extrémně velké v porovnání s čímkoli při kompresi dat nebo zpracování signálu. V klasické termodynamice je entropie definována pomocí makroskopických měření bez odkazů na nějaké rozdělení pravděpodobnosti, což je hlavním aspektem pro definici informační entropie.

Spojení mezi termodynamikou a tím, co nyní nazýváme teorie informace, si poprvé všiml Ludwig Boltzmann, který jej vyjádřil svou proslulou rovnicí:

kde je termodynamická entropie určitého makroskopický stavu (definovaná termodynamickými parametry jako například teplotou, objemem, energií, atd.), W je počet mikroskopický stavů (různé kombinace částic v různých energetických stavech), které mohou dávat daný makroskopický stav a kB je Boltzmannova konstanta. je předpokládali, že každý mikroskopický stav je stejně pravděpodobně, takže pravděpodobnost daného mikroskopický stavu je pi = 1/W. Když tyto pravděpodobnosti jsou substituted do výše uvedený výraz pro Gibbsovu entropii (nebo ekvivalentně kB krát Shannonova entropie), Boltzmannova rovnice výsledky. Při použití termíny z teorie informace je informační entropie systému množství „chybějící“ informace potřebné pro určení mikroskopického stavu je-li dán makroskopický stav.

V přístupu Edwina Thompsona Jaynese (1957) se na termodynamickou entropii, jak ji vysvětluje statistická mechanika, musí nahlížet jako na aplikaci Shannonovy teorie informace: termodynamická entropie je interpretována jako úměrné množství další Shannonovy informace potřebné pro definování podrobného mikroskopického stavu systému, který zůstává při popisu výhradně makroskopickou proměnnou klasické termodynamiky nepoznán, s konstantou proporcionality je pouze Boltzmannova konstanta. Sčítání teplo na systém zvyšuje jeho termodynamický entropie protože to zvyšuje počet možných mikroskopických stavů systému, které jsou konzistentní s měřitelnou hodnotou své makroskopické proměnné, udělání jakýkoli úplná stav popis delší. (Viz článek: maximální entropie termodynamika). Maxwellův demon může (hypoteticky) omezit termodynamickou entropii systému pomocí informace o stavech jednotlivých molekul; ale jak Landauer (v roce 1961) a spolupracovníci ukázali, aby démon sám fungoval, musí zvyšovat termodynamickou entropii v proces, alespoň o množství Shannonovy informace, kterou navrhuje nejdřív získat a uložit; a tak celkový termodynamický entropie nesnižuje (což řeší paradox). Landauerův princip vynutí dolní mez množství tepla, které počítač musí vytvořit při zpracování daného množství informace, i když moderní počítače jsou daleko méně efektivní.

Entropie jako informační obsah

Podrobnější informace naleznete v článku Shannonova věta o zdrojovém kódování.

Entropie je definovaná v kontextu pravděpodobnostního modelu. Nezávislý vrh poctivou mincí má entropii 1 bit na hod. Zdroj, které vždy generuje dlouhý řetězec znaků B má entropii 0, protože následující znak bude vždy 'B'.

poměr entropie datového zdroje je průměrný počet bitů na symbol potřebné kódovat to. Shannonovy pokusy s lidský predictors ukazují informační poměr mezi 0,6 a 1,3 bitů na znak v anglickém textu;[10] komprimační algoritmus PPM může dosáhnout komprimačního poměru anglického textu 1,5 bitu na znak.

V předchozím příkladě jsou důležité tyto body:

  1. Množství entropie není vždy celočíselný počet bitů.
  2. Mnoho datových bitů nenese žádné informace. Například datové struktury často obsahují redundantní informace nebo mají identické části bez ohledu na informace v datové struktuře.

Pokud je Shannonova definice entropie aplikována na zdroj informace, může určovat minimální kapacitu kanálu požadovanou pro spolehlivé vysílat zdrojový jako zakódovaných binárních číslic (viz varování níže v kurzívě). Vzorec může být odvozen výpočtem matematického očekávání množství informace obsažené v číslice ze zdroje informace. Viz také Shannonova–Hartleyova věta.

Shannonova entropie míry informace obsažená ve zprávě jako protiklad k části zprávy, která je pevně určena (nebo předvídatelná). K dalším příkladům patří redundance ve struktuře jazyka nebo statistické vlastnosti týkající se frekvence výskytu dvojic nebo trojic písmen nebo slov, atd. Viz Markovův řetěz.

Entropie jako míra rozmanitosti

Podrobnější informace naleznete v článku Index rozmanitosti.

Entropie je jedním ze způsobů, jak měřit rozmanitost. Konkrétně Shannonova entropie je logaritmus 1D, skutečný rozmanitost index s parametr rovné 1.

Komprese dat

Podrobnější informace naleznete v článku Komprimace dat.

Entropie efektivně limituje výkonnost nejsilnějšího bezztrátového komprimační možné, což lze teoreticky provést pomocí typický množina nebo v praxi pomocí Huffmanova kódování, Lempel–Ziv nebo aritmetického kódování. Viz také Kolmogorovova složitost. V praxi komprimační algoritmy úmyslně zahrnují nějaké judicious redundance ve formě kontrolního součtu pro zabezpečení proti chybám.

Světová technologická kapacita uložených a přenášených informací

Studie z roku 2011 v časopisu Science odhaduje světovou technologickou kapacitu pro uložení a přenos optimálně komprimovaných informací normalizovanou na nejefektivnější komprimační algoritmy dostupné v roce 2007, je vlastně odhadem entropie technologicky dostupný zdrojů.[11] :s.60–65

Hodnoty v entropicky komprimovaných exabytech
Typ Informace 1986 2007
Uložení 2,6 295
Vysílání 432 1900
Telekomunikace 0,281 65

Autoři odhadli technologickou kapacitu pro uložení (plně entropicky komprimovaných) informací, kterou má lidstvo k dispozici, v roce 1986 a 2007. Informace rozdělují do tří kategorií: objem datových médií, která byla k dispozici pro ukládání informací, množství informací předaných pomocí jednosměrných vysílacích sítí a výměnu informací pomocí obousměrných telekomunikační sítí.[11]

Omezení entropie jako informačního obsahu

Existuje několik dalších konceptů příbuzných entropii, které určitým způsobem matematicky kvantifikují informační obsah:

(pro určité posloupnosti zpráv nebo symbolů generované daným stochastickým procesem může také definovat „poměr vlastní informace“, který je vždy roven poměru entropie v případě stacionárního procesu.) Jiná množství informace se také používají pro porovnávání různých zdrojů informace.

Výše uvedené koncepty si nesmíme plést. Často je zřejmé pouze z kontextu, který koncept se myslí. Když například někdo říká, že „entropie“ angličtiny je asi 1 bit na znak, jedná se o modelování angličtiny jako stochastického procesu a mluví se o poměru entropie. I sám Shannon používal termín podobně.

Při použití velmi velkých bloků může být odhad entropie na jeden znak uměle nízký, protože rozdělení pravděpodobnosti posloupnosti není známo přesně; je to pouze odhad. Pokud bychom uvažovali text každé dosud publikované knihy jako posloupnost, a text celé knihy bychom považovali za symbol, a jestliže je celkem N publikovaných knih a každá kniha je publikovaná pouze jednou, odhad pravděpodobnosti každé knihy je 1/N a entropie (v bitech) je −log2(1/N) = log2(N). Jako praktický kód to odpovídá přiřazení jednoznačného identifikátoru každé knize a používat ho místo textu knihy, když se chceme odkázat na text knihy. To je mimořádně užitečné pro mluvení o knihách, ale není to tak užitečné pro charakterizaci informačního obsahu jednotlivých knih nebo jazyka obecně: z identifikátoru knihy nelze rekonstruovat obsah knihy bez znalosti rozdělení pravděpodobnosti, tj. úplného textu všech knih. Klíčovou myšlenkou je, že musíme uvažovat složitost pravděpodobnostního modelu. Kolmogorovova složitost je teoretické zobecnění této myšlenky, která umožňuje zvážení informačního obsahu posloupnosti nezávislý na jakýkoli určitý pravděpodobnost model; uvažuje nejkratší program pro univerzální počítač, který vytvoří požadovanou posloupnost. Kód, který dosahuje poměru entropie posloupnosti pro daný model, plus kódová kniha (tj. pravděpodobnostní model), je jedním takovým programem, ale nemusí být nejkratší.

Fibonacciho posloupnost je 1, 1, 2, 3, 5, 8, 13, .... pokud uvažujeme posloupnost jako zprávu a každé číslo jako symbol, existuje téměř stejně symbolů jako znaků ve zprávě, což dává entropii přibližně log2(n). Prvních 128 symbolů Fibonacciho posloupnost má entropii přibližně 7 bitů/symbol, ale posloupnost lze vyjádřit pomocí vzorce [F(n) = F(n−1) + F(n−2) pro n = 3, 4, 5, …, F(1) =1, F(2) = 1] a toto vzorec má mnohem nižší entropie a je použita na jakýkoli délka Fibonacciho posloupnosti.

Omezení entropie v kryptografii

V kryptoanalýze se entropie často používá jako přibližná míra nepředvídatelnosti kryptografického klíče, jehož reálná nejistota je neměřitelná. Například 128bitový klíč, který je rovnoměrně a náhodně generovaný, má entropii 128 bitů. Také je třeba (v průměru) pokusů pro prolomení šifry hrubou silou. Entropie však selhává, jestliže možné klíče nejsou voleny rovnoměrně.[12][13] Místo toho lze použít míru nazývanou guesswork pro změření úsilí potřebného pro útok hrubou silou.[14]

V kryptografii se mohou objevit další problémy při používání entropie kvůli nerovnoměrnému rozdělení. Například jednorázová šifra, která šifruje text pomocí funkce xor s miliónem binárních číslic. Pokud má tabulka entropii milión bitů, je šifrování dokonalé. Pokud má šifra entropii jen 999 999 bitů, rovnoměrně distribuovaný (každý jednotlivý bit jednorázového hesla má entropii 0,999999 bitů) může stále poskytovat dobrou bezpečnost. Ale jestliže jednorázové heslo má entropii 999 999 bitů, přičemž první bit je pevný a zbývajících 999 999 bitů je naprosto náhodných, první bit šifrového textu nebude vůbec zašifrovaný.

Data jako Markovův proces

Obvyklý způsob, jak definovat entropii textu, vychází z Markovova modelu textu. Pro zdroj 0. řádu (každý znak je vybraný nezávisle na posledních znacích) je binární entropie:

kde pi je pravděpodobnost i. Pro Markovův zdroj prvního řádu (zdroj, u něhož je pravděpodobnost výběru znak závislá pouze na předchozím znaku), poměr entropie (anglicky entropy rate) je:

Šablona:Citace monografie potřebné

kde i je stav (anglicky state) (určitý předchozí znaky) a je pravděpodobnost j daný i jako předchozí znak.

Pro Markovův zdroj druhého řádu je poměr entropie

b-ární entropie

Obecně b-ární entropie zdroje = (S, P) se zdrojovou abecedou S = {a1, …, an} a diskrétním rozdělením pravděpodobnosti P = {p1, …, pn}, kde pi je pravděpodobnost ai (značíme pi = p(ai)) je definovaný vztahem:

Hodnota b v „b-ární entropie“ je počet různých symbolů ideální abecedy používané jako standardní měřítko pro měření zdrojové abecedy. V teorii informace je pro kódování informací nutné a postačující, aby abeceda obsahovala dva symboly. Proto implicitně pracujeme s b = 2 („binární entropie“). Entropie zdrojové abecedy spolu s daným empirickým rozdělením pravděpodobnosti je číslo rovné počtu (případně zlomkovému) symbolů „ideální abecedy“ s optimálním rozdělením pravděpodobnosti nezbytných pro kódování každého symbolu zdrojové abecedy. Přitom „optimální rozdělení pravděpodobnosti“ zde znamená rovnoměrné rozdělení: zdrojová abeceda s n symboly má nejvyšší možnou entropii (mezi abecedami s n symboly), je-li rozdělení pravděpodobnosti abecedy rovnoměrné. Ukazuje se, že tato optimální entropie je logb(n).

Efektivita

Zdrojová abeceda s nerovnoměrným rozdělením bude mít menší entropii, než kdyby její symboly měly rovnoměrné rozdělení („optimalizovaná abeceda“). Tento nedostatek entropie lze vyjádřit poměrem nazývaným efektivita:

Použitím základních vlastností logaritmu lze tuto hodnotu také vyjádřit jako:

Efektivita je vhodnou mírou pro využití komunikačního kanálu. Uvedená veličina se také označuje normalizovaná entropie, protože entropie je dělena maximální entropií . Efektivita je navíc nezávislá na volbě základu b, jak je ukázáno výše.

Charakterizace

Shannonova entropie je charakterizována malým počtem dále uvedených kritérií. Jakákoli definice entropie, která těmto kritériím vyhovuje, má tvar

kde K je konstanta, která závisí na volbě jednotek měření.

V dalším textu budeme psát pi = Pr(X = xi) a Ηn(p1, …, pn) = Η(X).

Spojitost

Míra musí být spojitá, takže změna hodnoty pravděpodobnosti o velmi malou hodnotu způsobí pouze malou změnu entropie.

Symetrie

Míra nesmí záviset na pořadí výsledků xi.

atd.

Maximální

Míra musí být maximální, jestliže všechny výsledky jsou stejně pravděpodobně (nejistota je nejvyšší, když všechny možné události mají stejnou pravděpodobnost).

Pro stejně pravděpodobné události se entropie musí zvyšovat s počtem výsledků.

Rozdělení, které má maximální diferenciální entropií pro spojité náhodné proměnné, je vícerozměrné normální rozdělení.

Aditivita

Velikost entropie musí být nezávislá na tom, jak je proces rozdělen do složek.

Tato poslední funkcionální podmínka charakterizuje entropii systému se subsystémy. Vyžaduje, aby entropii systému bylo možné spočítat z entropií jeho subsystémů, jestliže interakce mezi subsystémy jsou známé.

Je-li dán soubor n rovnoměrně distribuovaných prvků, které jsou rozděleny do k podsystémů, každý s b1, ..., bk prvky, entropie celého systému se musí rovnat sumě entropií jednotlivých podsystémů a entropií jednotlivých boxů, každý vážený s pravděpodobností, že je v příslušném podsystému.

Pro kladná celá čísla bi kde b1 + … + bk = n,

Pokud zvolíme k = n, b1 = … = bn = 1, z toto vyplývá, že entropie určitého výsledku je nulová: Η1(1) = 0. Z toho vyplývá, že efektivitu zdrojové abecedy s n symboly lze definovat jednoduše jako její n-ární entropii. Viz také Redundance (teorie informace).

Další vlastnosti

Shannonova entropie splňuje další vlastnosti; pro některé z nich je užitečné interpretovat entropii jako množství dodané informace (nebo odstraněné nejistoty), kterou přinese zjištění hodnoty náhodné proměnné X:

  • Přidání nebo odstranění události s nulovou pravděpodobností nepřispívá k entropii:
.
  • Entropie diskrétní náhodné proměnné je nezáporné číslo:
.[15]:s.15
[15].:s.29
Této maximální entropie logb(n) je efektivně dosaženo zdrojovou abecedou, která má rovnoměrné rozdělení pravděpodobnosti: nejistota je maximální, když jsou všechny možné události stejně pravděpodobné.
  • Entropie nebo množství informace získané vyhodnocením (X,Y) (tj. vyhodnocování X a Y současně) se rovná informaci získané provedením dvou pokusů po sobě: nejdříve vyhodnotíme hodnotu Y, potom hodnotu X se znalostí hodnoty Y. To lze napsat jako
  • Pokud kde je funkce, pak . Použití předchozího vzorce na dává
takže , entropie proměnná se může pouze snížit, když na druhou náhodnou proměnnou aplikujeme nějakou funkci.
  • Pokud X a Y jsou dvě nezávislé náhodné proměnné, pak znalost hodnoty Y neovlivňuje naši znalost hodnoty X (protože se proměnné vzájemně neovlivňují):
  • Entropie dvou současných událostí není větší než suma entropií těchto události samotných, přičemž rovnost nastane, jsou-li obě události nezávislé. Konkrétněji, jestliže X a Y jsou dvě náhodné proměnné na stejném pravděpodobnostním prostoru a (X, Y) označuje jejich kartézský součin, pak
  • Entropie je konkávní v pravděpodobnostní funkci , tj.
pro všechny pravděpodobnostní hmotové funkce a [15].:s.32

Rozšíření diskrétní entropie na spojitý případ

Diferenciální entropie

Podrobnější informace naleznete v článku Diferenciální entropie.

Shannonova entropie je definována pouze pro náhodné proměnné nabývající diskrétních hodnot. Odpovídající vzorec pro spojitou náhodnou proměnnou s hustotou pravděpodobnosti f(x) s konečným nebo nekonečným nosičem na reálné ose je možné definovat analogicky použitím výše uvedeného tvaru entropie jako střední hodnoty:

Tato veličina se obvykle nazývá spojitá entropie nebo diferenciální entropie. Předchůdcem spojité entropie h[f] je výraz pro funkcionál Η v Boltzmannově H-větě.

Přestože analogie mezi oběma funkcemi je sugestivní, je třeba položit otázku, zda je diferenciální entropie povoleným rozšířením Shannonovy diskrétní entropie? Diferenciální entropie postrádá některé vlastnosti Shannonovy diskrétní entropie – může být mimo jiné záporná – proto byly doporučovány opravy, především omezující hustota diskrétních bodů.

Aby bylo možné odpovědět na tuto otázku, je nutné ukázat spojení mezi těmito dvěma funkcemi:

Pro získání obecně konečné míry, když se velikost intervalů, na které je rozsah hodnot rozdělen, blíží k nule. V diskrétním případě je velikost intervalu (implicitní) šířkou každého z n (konečných nebo nekonečných) intervalů, jejíchž pravděpodobnosti jsou označeny pn. Když uvažujeme rozšíření na spojitý případ, šířka intervalu musí být stanovena explicitně.

Vyjdeme od spojité funkce f diskretizované na intervaly velikosti . Podle věty o střední hodnotě existuje hodnota xi v každém intervalu tak, že

integrál funkce f lze aproximovat (v Riemannovském smyslu) jako

kde tato limita odpovídá tomu, že „velikost intervalu se blíží k nule“.

Označíme

a rozepsáním logaritmu dostáváme

Pro Δ → 0 máme

Pamatujte, že log(Δ) → −∞ pro Δ → 0, vyžaduje speciální definici diferenciální nebo spojité entropie:

čemuž říkáme, jak již bylo řečeno, diferenciální entropie. To znamená, že diferenciální entropie není limitou Shannonovy entropie pro n → ∞. Naopak, liší se od limity Shannonovy entropie o nekonečné posunutí (viz také článek informační rozměr).

Omezení hustoty diskrétních bodů

Podrobnější informace naleznete v článku Omezení hustoty diskrétních bodů.

Ukazuje se, že diferenciální entropie, na rozdíl od Shannonovy entropie, obecně není dobrou mírou nejistoty nebo informace. Diferenciální entropie může být například záporná; také není invariantní vůči spojité transformaci souřadnic. Tento problém může být ilustrován změnou jednotek, pokud by x byla veličina, která má fyzikální rozměr. f(x) pak bude mít rozměr 1/x. Argument logaritmu musí být bezrozměrný, jinak je nevlastní, takže diferenciální entropie definovaná výše bude nevlastní. Pokud Δ je nějaká „standardní“ hodnota x (tj. „velikost intervalu“) a proto má stejný rozměr, pak lze modifikovanou diferenciální entropii zapsat v patřičném tvaru jako:

Přičemž výsledek bude stejný pro jakoukoli volbu jednotek veličiny x. Totiž limita diskrétní entropie pro by také obsahovala člen , který by obecně byl nekonečný. To se dalo očekávat, protože po změně spojitých proměnných na diskrétní obvykle vyjde entropie nekonečná. Omezující hustota diskrétních bodů je skutečně mírou, o kolik snazší je popsat nějaké rozdělení než rozdělení, které je rovnoměrně přes své kvantizační schéma.

Relativní entropie

Další užitečnou mírou entropie, která funguje stejně dobře pro diskrétní i spojitý případ, je relativní entropie rozdělení. Je definovaná jako Kullbackova–Leiblerova divergence z rozdělení na reference míra m takto. Předpokládejme, že rozdělení pravděpodobnosti p je absolutně spojité vzhledem k míře m, tj. má tvar p(dx) = f(x)m(dx) pro nějakou nezápornou m-integrovatelnou funkci f s m-integrálem 1, pak lze relativní entropii definovat jako

V tomto tvaru relativní entropie zobecňuje (až na změnu znaménka) jak diskrétní entropii, kde míra m je počítací míra, tak diferenciální entropii, kde míra m je Lebesgueova míra. Pokud míra m je samotné rozdělení pravděpodobnosti, relativní entropie je nezáporná, a je nulová, jestliže p = m jako míry. Je definována pro jakýkoli prostor s mírou, je tedy nezávislá na souřadnicích a invariantní při reparameterizaci souřadnic, jestliže správně bereme v úvahu transformaci míry m. Relativní entropie a implicitně entropie a diferenciální entropie, závisí na „referenční“ míře m.

Použití v kombinatorice

Entropie se stala užitečnou veličinou v kombinatorice.

Loomisova–Whitneyova nerovnost

Jejím jednoduchým příkladem je alternativní důkaz Loomisovy–Whitneyovy nerovnosti: pro každou podmnožinu AZd, máme

kde Pi je ortogonální projekce v i-té souřadnici:

Důkaz je jednoduchým důsledkem Shearerovy nerovnosti:, jestliže X1, …, Xd jsou náhodné proměnné a S1, …, Sn jsou podmnožiny množiny {1, …, d} takové, že každé celé číslo mezi 1 a d leží přesně v r těchto podmnožinách, pak

kde je kartézský součin náhodné proměnné Xj s indexy j v Si (takže rozměry tohoto vektoru se rovnají velikosti Si).

Načrtneme, jak z uvedeného vyplývá Loomisova–Whitneyova nerovnost: Nechť X je rovnoměrně distribuovaná náhodná proměnná s hodnotami v A, takže každá hodnota A má stejnou pravděpodobnost. Pak (z dalších vlastností entropie zmíněných výše) , kde označuje mohutnost množiny . Nechť Si = {1, 2, …, i−1, i+1, …, d}. Hodnoty jsou obsaženy v Pi(A), a tedy . To nyní použijeme pro omezení pravé strany Shearerovy nerovnosti a aplikujeme exponenciální funkci na obě strany výsledné nerovnosti.

Aproximace binomickým koeficientem

Pro celá čísla 0 < k < n položíme q = k/n. Pak

kde

[16]:s.43

Zde je náčrt důkazu. Uvědomíme si, že je jeden člen výrazu

Přeskupení dává horní mez. Pro dolní mez musíme nejdřív ukázat pomocí nějaké algebry, že se jedná o největší člen v sumě. Ale pak,

protože suma má n + 1 členů. Přeskupení dává dolní mez.

Hezkým důsledkem je, že počet binárních řetězců délky n, které obsahují přesně k jedniček, je přibližně .[17]

Odkazy

Související články

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Entropy (information theory) na anglické Wikipedii.

  1. PATHRIA, R. K.; BEALE, Paul. Statistical Mechanics. 3. vyd. [s.l.]: Academic Press, 2011. Dostupné online. ISBN 978-0123821881. S. 51. 
  2. SHANNON, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. Červenec–říjen 1948, roč. 27, čís. 3, s. 379–423. Dostupné online. DOI 10.1002/j.1538-7305.1948.tb01338.x.  (PDF, archivováno z původního zdroje)
  3. SHANNON, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. 1948, roč. 27, čís. 3, s. 379–423. Dostupné online. DOI 10.1002/j.1538-7305.1948.tb01338.x. , červenec a říjen
  4. SCHNEIER, B. Applied Cryptography. 2. vyd. [s.l.]: John Wiley and Sons 
  5. BORDA, Monica. Fundamentals in Information Theory and Coding. [s.l.]: Springer, 2011. Dostupné online. ISBN 978-3-642-20346-6. 
  6. Mathematics of Information and Coding. [s.l.]: American Mathematical Society, 2002. Dostupné online. ISBN 978-0-8218-4256-0. 
  7. SCHNEIDER, T.D. Information theory primer with an appendix on logarithms [online]. National Cancer Institute, 2007-04-14. Dostupné online. 
  8. CARTER, Tom. An introduction to information theory and entropy. Santa Fe: [s.n.], březen 2014. Dostupné online. 
  9. Srovnejte: Boltzmann, Ludwig (1896, 1898). Vorlesungen über Gastheorie : 2 Volumes – Lipsko 1895/98 UB: O 5262-6. anglická verze: Lectures on gas theory. Překlad Stephen G. Brush (1964) Berkeley: University of California Press; (1995) New York: Dover ISBN 0-486-68455-5
  10. Mark Nelson. The Hutter Prize [online]. 2006-08-24 [cit. 2008-11-27]. Dostupné online. 
  11. a b "The World's Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert a Priscila López (2011), Science, 332(6025); volný přístup k článku: [martinhilbert.net/WorldInfoCapacity.html]
  12. MASSEY, James. Guessing and Entropy. In: Proc. IEEE International Symposium on Information Theory. [s.l.]: [s.n.], 1994. Dostupné online.
  13. MALONE, David; SULLIVAN, Wayne. Guesswork is not a Substitute for Entropy. In: Proceedings of the Information Technology & Telecommunications Conference. [s.l.]: [s.n.], 2005. Dostupné online.
  14. PLIAM, John. Guesswork and variation distance as measures of cipher security. In: International Workshop on Selected Areas in Cryptography. [s.l.]: [s.n.], 1999. DOI 10.1007/3-540-46513-8_5.
  15. a b c Elements of Information Theory. Hoboken, New Jersey: Wiley, 2006-07-18. ISBN 978-0-471-24195-9. 
  16. Aoki, New Approaches to Macroeconomic Modeling.
  17. Probability and Computing, M. Mitzenmacher and E. Upfal, Cambridge University Press

Šablona:PlanetMath attribution

Literatura

Externí odkazy