Pravděpodobnost

Pravděpodobnost náhodného jevu je číslo vyjadřující očekávatelnost určitého jevu, obvykle výsledku náhodného pokusu. Náhodným pokusem rozumíme opakovatelnou činnost (tj. máme více než jeden pokus) prováděnou za stejných (nebo přibližně stejných) podmínek, jejíž výsledek je nejistý a závisí na náhodě. Příklady mohou být například házení kostkou nebo losování loterie.

Pravděpodobnost události nejčastěji vyjadřujeme reálným číslem od 0 do 1. Událost, která nemůže nastat, má pravděpodobnost 0 (nemožný jev), a naopak událost, která nastane vždy, má pravděpodobnost 1 (jistý jev). Číselné vyjádření pravděpodobnosti P jevu A je poměrem všech příznivých událostí (m) ku celkovému počtu všech možných událostí (n), tj. $P(A)={\frac {m}{n}}$ . Alternativně se pravděpodobnost někdy uvádí v procentech, tedy setinách klasického vyjádření, nebo se vyjadřuje úplně jinými způsoby, např. jako poměr pravděpodobností.

Historie[editovat | editovat zdroj]

Matematizací pojmu pravděpodobnost se ve své korespondenci zabývali Pierre de Fermat a Blaise Pascal (1654), a to zejména v kontextu hazardních her a kombinatorických problémů. Základy pravděpodobnosti jako matematické disciplíny poté dále rozvinuli Christian Huygens, Abraham de Moivre a zejména Jacob Bernoulli.

Zdaleka nejvýznamnějším a dodnes inspirativním klasikem teorie pravděpodobnosti byl však Pierre-Simon Laplace. Ve svém monumentálním díle o teorii pravděpodobnosti (Théorie analytique des probabilités) nejen že systematizoval veškeré poznání svých předchůdců, ale dalekosáhle je rozpracoval i aplikoval na téměř všechny oblasti tehdejšího vědeckého poznání – od fyziky až po sociální vědy. V Laplaceově pojetí představuje pravděpodobnost nástroj pro popis všech problémů s neúplnou vstupní informací. Laplace mimo jiné (znovu)objevil jednu z klíčových formulí teorie pravděpodobnosti, známou dnes jako Bayesův teorém, kterou navíc zobecnil pro situace s obecnou apriorní informací. Na řešení konkrétního astronomického problému – určení přibližné hmotnosti Saturnu – ukázal Laplace užití pravděpodobnosti na oblast jevů, pro které opakovaný či hromadný výskyt nemá smysl (nejde o náhodné pokusy), čímž se stal průkopníkem bayesovské teorie pravděpodobnosti. Jako předstupeň metody maximální entropie odvodil Laplace rozložení chyb (v podstatě Gaussovu křivku) pro některé konkrétní experimenty. Populárně psaným úvodem k jeho hlavnímu dílu o pravděpodobnosti byla jeho „filosofická“ esej o pravděpodobnosti. Tento úvod byl sice mnohem rozšířenější a čtivější, než jeho dílo hlavní, vedl však též k různým zkresleným představám a mýtům o Laplaceově práci v oblasti pravděpodobnosti. V hlavním Laplaceově pravděpodobnostním díle dominuje jím vynalezená (a pro pravděpodobnost velmi významná) metoda vytvořujících funkcí.

Laplace pozvedl teorii pravděpodobnosti na úroveň, která pak celé století po jeho smrti nebyla překonána. Novější vývoj sledoval dvě hlavní linie: jedna z nich se zabývala zejména pravděpodobností v kontextu tzv. hromadných jevů a fakticky vedla k výrazně zúženému a v podstatě statistickému pojetí pojmu pravděpodobnosti (tzv. „frekvencionistická“ škola, jejímž hlavním propagátorem byl R. von Mises).

Druhá vývojová linie je charakterizovaná zejména pracemi vědců jako byli Andrej Nikolajevič Kolmogorov (zejména matematika) a Edwin Thompson Jaynes (zejména fyzika), které zachovávají obecnost a ducha Laplaceova „bayesovského“ pojetí pravděpodobnosti, staví je však na modernější základy. V pracích Kolmogorova figuruje pravděpodobnost jako teorie normované míry, v pracích Jaynese je interpretována pravděpodobnost jako zobecněná logika. Obě tato pojetí jsou do značné míry ekvivalentní. Unikátnost pravidel teorie pravděpodobnosti, která představovala dlouho otevřenou otázku v základech teorie, značně ujasnili Richard Threlkeld Cox a E. T. Jaynes. Souběžně ve 20. století došlo k „pravděpodobnostní revoluci“ ve fyzice, zejména v kontextu oblastí jako statistická fyzika, kvantová mechanika, teorie chaosu, informační fyzika, atd. Rozvoj poznatků o teorii pravděpodobnosti tak stále není ani zdaleka uzavřen.

Definice[editovat | editovat zdroj]

Množinu všech možných výsledků pokusu (experimentu) značíme $\Omega$ . Jednotlivé možné výsledky pokusu značíme $\omega$ . Podmnožiny množiny $\Omega$ se nazývají (náhodné) jevy.

Klasická (Laplaceova) definice pravděpodobnosti[editovat | editovat zdroj]

Nechť náhodný pokus splňuje předpoklady:

Všech možných výsledků je konečný počet.
Všechny výsledky jsou stejně možné.
Všechny výsledky se vzájemně vylučují.

Pravděpodobností jevu A pak nazveme číslo $P(A)={\frac {m}{n}}$ , kde $n$ je počet všech výsledků náhodného pokusu a $m$ je počet výsledků příznivých jevu A; $n=|\Omega |$ , $m=|A|$ .

Diskuse: Je zapotřebí zdůraznit, že Laplace uvedenou definici předložil jen jako jednoduchý a názorný zvláštní případ pro výpočet hodnoty pravděpodobnosti. Mnoho Laplaceových následovníků chybně usuzovalo, že Laplace chápal pravděpodobnost jen pro uvedené zjednodušení. To je však hrubý omyl. Naopak, Laplace předkládá ve svém díle i nástroje pro mnohem obecnější situaci. Například takové, které vyžadují úplnou formu součinového pravidla (de facto Bayesův teorém) a nevyžadují tudíž předpoklad, že všechny výsledky jsou apriori stejně možné. Anebo pro situace, které neumožňují mnohonásobné opakování experimentu ve statisticky stabilních podmínkách. Viz např. Laplaceův problém stanovení pravděpodobné hmotnosti Saturnu. Laplaceovo pojetí pravděpodobnosti je bayesovské – jako zobecnění logiky pro úlohy s neúplnou informací.

Bayesovské interpretace[editovat | editovat zdroj]

Pravděpodobnost je míra očekávání toho, že nastane nějaký jev, měřená na škále od nuly (jistota, že jev nenastane) do jedné (jistota, že jev nastane) tak, aby číselná vyjádření pravděpodobnosti vyhovovala zákonům logiky a obvyklým rovnostem teorie pravděpodobnosti. Existují v zásadě dvě možné bayesovské interpretace pravděpodobnosti:

objektivistická, podle níž je pravděpodobnost racionální očekávání založené na stavu vědomostí a jde o rozšíření klasické dvouhodnotové logiky na situaci, kdy se pracuje i s nejistotou (Richard Threlkeld Cox, E. T. Jaynes a další);
subjektivistická, podle níž je pravděpodobnost kvantifikací subjektivní víry, jež má podléhat pravidlům racionality a koherence (Bruno de Finetti, Abraham Wald a další).

Diskuse: I když své jméno nese podle Thomase Bayese, byl zakladatelem tohoto proudu pravděpodobnostního myšlení až Pierre-Simon Laplace. V první polovině dvacátého století bylo toto chápání pravděpodobnosti zatlačeno do pozadí jako příliš subjektivní, ale zájem o ně opět postupně narůstal, když se ukázalo jako výhodné v řadě situací, kdy je opačné (frekventistické) pojetí méně praktické nebo ho nelze přímočaře aplikovat.

Statistická definice pravděpodobnosti[editovat | editovat zdroj]

Opakujme náhodný pokus $N$ -krát, přičemž předpokládejme, že výskyt náhodného jevu $A$ pozorujeme v $M$ případech (číslo $M$ je četností jevu $A$ ). Poměr ${\frac {M}{N}}$ se pak označuje jako poměrná či relativní četnost jevu $A$ . Jestliže se s rostoucím $N$ , tedy se zvyšováním počtu opakování pokusu, relativní četnost ${\frac {M}{N}}$ blíží nějakému číslu, pak toto číslo můžeme považovat za pravděpodobnost daného jevu.

Diskuse: Statistickou definici pravděpodobnosti označujeme též jako frekvencionistickou. Při velkém počtu pokusů se za jistých předpokladů bude relativní četnost blížit pravděpodobnosti daného jevu. Musí však platit, že statistický experiment probíhá ve statisticky ustálených podmínkách. Dále je zřejmé, že statistickou definici nelze dobře použít, pokud jev není opakovatelný. Klasickou i statistickou definicí tak získáme stejnou hodnotu pravděpodobnosti jen za poměrně silných (i když v praxi dosti častých) předpokladů.

Geometrická definice pravděpodobnosti[editovat | editovat zdroj]

Dalším příkladem definice pravděpodobnosti může být tzv. geometrická definice. Zde je definice pravděpodobnosti založena na porovnání objemů, ploch či délek geometrických útvarů. Uvažujme např. dvojrozměrnou situaci. Podle geometrické definice je pak pravděpodobnost jevu $A$ určena jako $P(A)={\frac {\omega }{S}}$ , kde $S$ je obsah plochy (představující např. všechny možné výsledky náhodného pokusu) a $\omega$ je celkový obsah plochy (která např. představuje výsledky, při nichž dojde k výskytu jevu $A$ ).

Diskuse: Také geometrická definice v uvedené formě vychází z předpokladu, že všechny výsledky náhodného pokusu jsou stejně pravděpodobné (obecněji – že všechny elementy uvažovaného geometrického objektu mají „stejnou váhu“). S pomocí součinového pravidla (Bayesova teorému) ji lze snadno zobecnit i na situace s libovolným apriorním rozdělením pravděpodobností (různou váhou elementů geometrického objektu). Geometrickou definici pravděpodobnosti tedy není nutné svazovat s nějakými opakovanými náhodnými pokusy. Geometrická definice v uvedené zjednodušené podobě je přirozeným východiskem pro definici pravděpodobnosti jako určité normované míry, popsané axiomaticky jazykem teorie množin (Kolmogorovova definice).

Kolmogorovova axiomatická definice[editovat | editovat zdroj]

Přiřazení pravděpodobnosti náhodnému jevu popisuje Kolmogorovova axiomatická definice pravděpodobnosti z roku 1933. Je-li $\Omega$ neprázdná množina a $S$ je σ algebra náhodných jevů definovaných na $\Omega$ , pak pravděpodobností se nazývá reálná funkce $P(A)$ definovaná na $S$ , která pro $A\in S$ a $A_{1},A_{2},...\in S,A_{i}\cap A_{j}=\emptyset ,i\neq j$ splňuje

$P(A)\geq 0$ , tzn. pravděpodobnost každého jevu je nezáporná
$P(\Omega )=1$ , tzn. pravděpodobnost jistého jevu je rovna 1.
$P\left(\cup _{i=1}^{\infty }A_{i}\right)=\sum _{i=1}^{\infty }P(A_{i})$ , tzn. pravděpodobnost sjednocení vzájemně se vylučujících jevů (tj. průnik každých dvou z nich je nemožný jev) je rovna součtu jejich pravděpodobností.

Z uvedených axiomů vyplývá následující:

Pravděpodobnost je číslo v intervalu $\langle 0,1\rangle$ , tzn. $0\leq P(A)\leq 1$ .
Nemožný jev má nulovou pravděpodobnost, tedy $P(\emptyset )=0$ .
Pravděpodobnost sjednocení dvou navzájem se vylučujících jevů je rovna součtu jejich pravděpodobností, tzn. $P(A_{1}\cup A_{2})=P(A_{1})+P(A_{2})$ . Tento důsledek lze zobecnit na sjednocení libovolného konečného počtu jevů, tzn. $P\left(\cup _{i=1}^{k}A_{i}\right)=\sum _{i=1}^{k}P(A_{i})$ .
Pravděpodobnost opačného jevu je doplněk pravděpodobnosti výchozího jevu do jedné, tzn. $P({\overline {A}})=1-P(A)$ .
Je-li $A$ částí jevu $B$ , pak pravděpodobnost jevu $A$ je menší nebo rovna pravděpodobnosti $B$ , tzn. $P(A)\leq P(B)$ .
Je-li $A$ částí jevu $B$ , pak pravděpodobnost rozdílu jevů $B-A$ je rovna rozdílu pravděpodobností obou jevů, tzn. $P(B-A)=P(B)-P(A)$ .

Kolmogorova definice je dostatečně obecná, neboť funkce $P$ může představovat míru na dané σ-algebře. Předchozí definice pak představují pouze speciální případy axiomatické definice. V praxi se však při výpočtu pravděpodobnosti často využívají.

Vlastnosti[editovat | editovat zdroj]

$P(A\cup B)=P(A)+P(B)-P(A\cap B)$
$P\left(\cup _{i=1}^{n}A_{i}\right)=\sum _{i=1}^{n}P(A_{i})-\sum _{i=1}^{n-1}\sum _{j=i+1}^{n}P(A_{i}\cap A_{j})+\sum _{i=1}^{n-2}\sum _{j=i+1}^{n-1}\sum _{k=j+1}^{n}P(A_{i}\cap A_{j}\cap A_{k})+\cdots +{(-1)}^{n-1}P\left(\cap _{i=1}^{n}A_{i}\right)$
Pro posloupnost jevů $A_{1}\subset A_{2}\subset \cdots$ platí $P\left(\cup _{i=1}^{\infty }A_{i}\right)=\lim _{i\to \infty }P(A_{i})$
Pro posloupnost jevů $A_{1}\supset A_{2}\supset \cdots$ platí $P\left(\cap _{i=1}^{\infty }A_{i}\right)=\lim _{i\to \infty }P(A_{i})$

Podmíněná pravděpodobnost[editovat | editovat zdroj]

Podmíněnou pravděpodobností $P(A|B)$ jevu $A$ rozumíme pravděpodobnost výskytu jevu $A$ za předpokladu, že se vyskytl jev $B$ , přičemž $P(B)>0$ . Pokud naopak předpoklad vypustíme, hovoříme o nepodmíněné pravděpodobnosti $P(A)$ jevu $A$ .

Podmíněnou pravděpodobnost jevu $A$ lze vyjádřit jako

P(A|B)={\frac {P(A\cap B)}{P(B)}}={\frac {|A\cap B|}{|B|}}.

Máme-li náhodné jevy $A_{1},A_{2},...,A_{n}$ , pak pravděpodobnost jejich průniku je

P\left(\cap _{i=1}^{n}A_{i}\right)=P(A_{1})P(A_{2}|A_{1})P(A_{3}|A_{1}\cap A_{2})\cdots P\left(A_{n}|\cap _{i=1}^{n-1}A_{i}\right)

Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů $A,B$ , tedy pravděpodobnost, že jevy $A,B$ nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.

P\left(A\cap B\right)=P(A)P(B|A)=P(B)P(A|B)

Nezávislé jevy[editovat | editovat zdroj]

Řekneme, že jevy $A$ a $B$ jsou nezávislé, pokud pravděpodobnost jevu $A$ nezávisí na výskytu jevu $B$ , tj. $P(A|B)=P(A)$ ; definice s prohozenými jevy $A$ a $B$ je ekvivalentní. Podle vztahu pro podmíněnou pravděpodobnost tedy platí

P(A\cap B)=P(A)\cdot P(B)

.

Uvedené tvrzení lze obrátit, tzn. jestliže platí $P(A\cap B)=P(A)\cdot P(B)$ , pak jsou jevy $A,B$ nezávislé.

Podobně řekneme o jevech $A_{1},A_{2},...,A_{n}$ , že jsou (navzájem) nezávislé právě tehdy, když pro každou podmnožinu $Q\subseteq \{A_{1},A_{2},...,A_{n}\}$ platí

P\left(\cap _{A\in Q}A\right)=\prod _{A\in Q}P(A).

Všimněme si, že uvedená rovnost musí platit nejen pro průnik všech zmíněných jevů, ale také každé jejich podskupiny. Taková nezávislost bývá označována jako skupinová nezávislost jevů. Každý jev je totiž nezávislý nejen na ostatních jevech, ale je také nezávislý na (libovolných) průnicích ostatních jevů. Nezávislost jevů po dvou je typ nezávislosti, kdy každý jev je nezávislý na ostatních jevech, nemusí však být nezávislý na průnicích jiných jevů.

Příklad[editovat | editovat zdroj]

Mějme čtyři krabice, přičemž každá krabice má víko a uvnitř je koule. První krabice je bílá, uvnitř je bílá koule a víko krabice je také bílé. Druhá krabice je bílá, uvnitř je černá koule a víko je také černé. Třetí krabice je černá, uvnitř je černá koule a víko je bílé. Poslední krabice je černá, uvnitř je bílá koule a víko je černé.

Za náhodný jev $A$ budeme považovat, že náhodně vybraná krabice je černá, za jev $B$ vezmeme, že náhodně vybraná krabice obsahuje černou kouli, a jevem $C$ bude, že náhodně vybraná krabice má černé víko.

Z předchozího lze zjistit

P(A)=P(B)=P(C)={\frac {1}{2}}

Pro současný výskyt dvojic jevů platí

P(A\cap B)=P(A\cap C)=P(B\cap C)={\frac {1}{4}}

Vzhledem k tomu, že neexistuje žádná černá krabice s černou koulí a černým víkem, bude

P(A\cap B\cap C)=0

Je tedy vidět, že náhodné jevy $A,B,C$ jsou po dvou nezávislé, avšak nejsou (navzájem) nezávislé.

Vzorec úplné pravděpodobnosti[editovat | editovat zdroj]

Jestliže jevy $B_{1},B_{2},...,B_{n}$ tvoří úplný systém jevů, pak pravděpodobnost libovolného jevu $A$ lze určit pomocí tzv. vzorce úplné pravděpodobnosti

P(A)=\sum _{i=1}^{n}P(B_{i})P(A|B_{i})

Bayesův vzorec[editovat | editovat zdroj]

Mějme úplný systém jevů $B_{1},B_{2},...,B_{n}$ . Jestliže je výsledkem náhodného pokusu jev $A$ , pak k určení podmíněné pravděpodobnosti jevu $B_{k}$ vzhledem k jevu $A$ použijeme Bayesův vzorec, který zapisujeme

P(B_{k}|A)={\frac {P(B_{k})P(A|B_{k})}{\sum _{i=1}^{n}P(B_{i})P(A|B_{i})}}={\frac {P(B_{k})P(A|B_{k})}{P(A)}}

pro $k=1,2,...,n$ .

Rozdělení[editovat | editovat zdroj]

Rozdělení pravděpodobnosti je funkce, která přiřazuje pravděpodobnosti událostem nebo tvrzením. Pro každou sadu událostí existuje mnoho způsobů, jak přiřadit pravděpodobnost, takže výběr rozdělení odpovídá různým předpokladům o události.

Existuje několik způsobů, jak vyjádřit rozdělení pravděpodobnosti. Nejobvyklejší je uvést hustotu rozdělení pravděpodobnosti; samotná pravděpodobnost jevu se pak získá integrací funkce hustoty. Distribuční funkci lze také uvést přímo.

Rozdělení pravděpodobnosti nazveme diskrétní, pokud je definováno na spočetné, diskrétní množině, jako je podmnožina celých čísel. O spojitém rozdělení mluvíme v případě, že existuje spojitá distribuční funkce, např. polynomická nebo exponenciální. Většina rozdělení, které mají praktické využití, jsou buď diskrétní nebo spojité, ale existují i rozdělení, která nespadají do žádné z těchto dvou kategorií.

Důležitá diskrétní rozdělení jsou například alternativní rozdělení, Poissonovo, binomické, negativní binomické a Maxwellovo–Boltzmannovo. Mezi důležitá spojitá rozdělení patří normální rozdělení, rozdělení gama, Studentovo rozdělení a exponenciální rozdělení.

Náhodné veličiny jsou proměnné, jejichž hodnoty při konstantních podmínkách závisí na náhodě, přičemž každá z těchto hodnot vystupuje s určitou pravděpodobností. Náhodné veličiny mohou být diskrétní nebo spojité a odpovídá jim diskrétní nebo spojitá distribuční funkce.

F(x)=\Pr \left[X\leq x\right]

Tato funkce je monotónní, neklesající, má nejvýše spočetně mnoho bodů nespojitosti a je spojitá zleva.

Diskrétní distribuční funkce je určena náhodnou veličinou, která je diskrétní, tedy může nabývat jen konečně mnoha hodnot x_i. Hodnoty x_i jsou body nespojitosti a příslušné pravděpodobnosti jsou skoky distribuční funkce v těchto bodech.

$F(x)=\Pr \left[X\leq x\right]=\sum _{x_{i}\leq x}p(x_{i})$ pro $i=1,2,...\,\!$ .