Statistický model

Statistický model je matematický model popisující soubor statistických předpokladů o vzniku dat výběrového souboru (dostupných dat popisujících potenciálně nekonečnou populaci). Statistický model tedy reprezentuje, často ve značně idealizované formě, proces generování dat.^[1]

Statistický model je obvykle specifikován jako matematický vztah mezi jednou nebo více náhodnými proměnnými a případně dalšími nenáhodnými proměnnými. Statistický model jako takový je „formálním vyjádřením teorie“ (Herman Adèr zde cituje Kennetha Bollena).^[2]

Všechny statistické testy hypotéz a všechny statistické odhady jsou odvozeny prostřednictvím statistických modelů. Obecněji řečeno, statistické modely patří k základům statistické inference.

Úvod

Neformálně lze statistický model považovat za statistický předpoklad (nebo soubor statistických předpokladů) s tou vlastností, že tento předpoklad nám umožňuje vypočítat pravděpodobnost jakékoli události. Jako příklad zvažme dvojici obyčejných hracích kostek. Budeme uvažovat dva různé statistické předpoklady o těchto kostkách.

První statistický předpoklad je tento: pro každou kostku je pravděpodobnost, že padne libovolné číslo (1, 2, 3, 4, 5 a 6) vždy jedna šestina. Z tohoto předpokladu můžeme vypočítat pravděpodobnost, že na obou kostkách padne pětka: 1/6 × 1/6 = 1/36. Obecněji můžeme vypočítat pravděpodobnost jakékoli události: např. (1 a 2) nebo (3 a 3) nebo (5 a 6).

Alternativní statistický předpoklad je tento: pro každou kostku je pravděpodobnost, že padne pětka, rovna jedné osmině (protože kostky nejsou vyvážené). Z tohoto předpokladu můžeme také vypočítat pravděpodobnost, že na obou kostkách padne pětka: 1/8 × 1/8 = 1/64. Nemůžeme však vypočítat pravděpodobnost jakékoli jiné netriviální události, protože pravděpodobnosti hodu ostatních čísel neznáme.

První statistický předpoklad je statistický model, protože na jeho základě můžeme vypočítat pravděpodobnost jakékoli události. Alternativní statistický předpoklad není statistický model, protože neumožňuje spočítat pravděpodobnost každé události.

Ve výše uvedeném příkladu je s prvním předpokladem výpočet pravděpodobnosti události snadný. U některých jiných statistických modelů však může být výpočet obtížný nebo dokonce prakticky neproveditelný (např. by mohl vyžadovat miliony let výpočetního času). Stále však jde o statistický model: výpočet nemusí být proveditelný, pouze teoreticky možný.

Formální definice

Z matematického hlediska se statistický model obvykle definuje jako uspořádaná dvojice ( $S,{\mathcal {P}}$ ), kde $S$ je soubor možných pozorování, tj. prostor elementárních jevů, a ${\mathcal {P}}$ je množina rozdělení pravděpodobnosti na $S$ .^[3]

Předpokládá se tedy, že existuje „skutečné“ rozdělení pravděpodobnosti spojené s procesem, který generuje pozorovaná data. Množinu ${\mathcal {P}}$ se snažíme zvolit tak, aby obsahovala rozdělení, jež se rovná (nebo z praktického hlediska dostatečně přibližuje) této skutečné distribuci.

Povšimněte si, že definice nevyžaduje, aby ${\mathcal {P}}$ obsahovala zmíněné skutečné rozdělení, protože to se v praxi zřídka dá dosáhnout. Jak uvádí Burnham & Anderson: „Model je zjednodušení nebo přiblížení reality, a proto nebude odrážet celou realitu“^[4] — proto se říká „všechny modely jsou nesprávné, ale některé jsou užitečné“.

Množina ${\mathcal {P}}$ je téměř vždy parametrizována: ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . Množina $\Theta$ obsahuje parametry modelu. Parametrizace má být vybrána tak, aby odlišné hodnoty parametrů vedly k odlišným distribucím, tj. $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ (jinými slovy musí být injektivní). Parametrizace, která splňuje tento požadavek, se označuje jako identifikovatelná.^[3]

Příklad

Předpokládejme, že máme populaci školních dětí s rovnoměrně rozloženým věkem dětí. Výška dítěte bude stochasticky souviset s věkem: např. když víme, že dítě má 7 let, ovlivní to pravděpodobnost, že dítě bude vysoké 1,5 metru. Tento vztah bychom mohli formalizovat lineárním regresním modelem, například takto: výška_i = b₀ + b₁ věk_i + ε_i, kde b₀ je konstantní člen, b₁ je parametr, kterým se násobí věk (regresní koeficient věku), ε_i je chybový člen (náhodná veličina, jejíž distribuci bychom měli znát či parametricky vyjádřit) a i identifikuje dítě. To znamená, že výška je předpovídána jako lineární funkce věku s určitou chybou.

Přípustný model musí být v souladu se všemi pozorováními (datovými body). Tedy samotná přímka (výška_i = b₀ + b₁ věk_i) zpravidla nemůže být rovnicí modelu podobných dat - zpravidla totiž přesně neprochází všemi datovými body. Proto musí být zahrnut do rovnice chybový člen, ε_i,, aby byl model konzistentní se všemi datovými body.

Abychom mohli provést statistickou inferenci, museli bychom popis modelu dokončit tím, že budeme předpokládat konkrétní distribuce pravděpodobnosti ε_i. Například bychom mohli předpokládat, že distribuce ε_i jsou nezávislé stejně rozdělené náhodné veličiny (anglickou zkratkou iid) s gaussovským (normálním) rozdělením a nulovou střední hodnotou. V tomto případě by model měl tři parametry: b₀, b₁ a rozptyl Gaussova rozdělení σ².

Model teď můžeme formálně popsat ve tvaru ( $S,{\mathcal {P}}$ ): Prostor $S$ našeho modelu obsahuje sadu všech možných dvojic (věk dítěte, výška dítěte). Každá možná trojice $\theta$ = (b₀, b₁, σ²) určuje rozdělení pravděpodobnosti na $S$ ; označme tuto distribuci jako $P_{\theta }$ Je-li $\Theta$ množina všech možných hodnot $\theta$ , pak ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . (Parametrizace je identifikovatelná což lze snadno zkontrolovat.)

V tomto příkladu je model určen (1) zadáním $S$ a (2) popsáním předpokladů o ${\mathcal {P}}$ . Jsou zde dva základní předpoklady: že výška může být aproximována lineární funkcí věku; a že chyby v aproximaci jsou distribuovány jako gaussovské iid. Tyto předpoklady stačí k popisu ${\mathcal {P}}$ — jak se od nich žádá.

Obecné poznámky

Statistické modely jsou podtřídou matematických modelů. Statistický model se od ostatních matematických modelů liší tím, že není deterministický. Ve statistickém modelu specifikovaném matematickými rovnicemi tedy některé proměnné nemají konkrétní hodnoty, ale jsou popsány rozdělením pravděpodobnosti; tj. některé z proměnných jsou stochastické. Ve výše uvedeném příkladu s výškami dětí je ε stochastická proměnná; bez této stochastické proměnné by byl model deterministický.

Statistické modely se často používají, i když je modelovaný proces vzniku dat deterministický. Například házení mincí je v zásadě deterministický proces; přesto je běžně modelován jako stochastický (pomocí Bernoulliho procesu).

Výběr vhodného statistického modelu, který představuje daný proces generování dat, je někdy extrémně obtížný a může vyžadovat znalost procesu i příslušných statistických poznatků. Statistik David Cox napsal: „Nejdůležitější částí analýzy je často způsob, jakým provedeme překlad reálného problému do statistického modelu.“^[5]

Podle Konishiho a Kitagawy existují tři možná použití statistického modelu.^[6]

Předpovědi
Extrakce informací
Popis stochastických struktur

Tyto tři body jsou v zásadě stejné jako tři účely uvedené textem Friendlyho a Meyera: předpověď, odhad, popis.^[7] Tyto tři účely odpovídají třem druhům logického uvažování: deduktivní uvažování, induktivní uvažování, abdukce.

Dimenze modelu

Mějme statistický model ( $S,{\mathcal {P}}$ ), kde ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . Nazývá se parametrický, pokud $\Theta$ má konečnou dimenzi. Píšeme pak například, že $\Theta \subseteq \mathbb {R} ^{k}$ , kde $k$ je přirozené číslo ( $\mathbb {R}$ označuje reálná čísla; v zásadě však lze použít i jiná tělesa). Potom $k$ se nazývá dimenze modelu.

Například předpokládejme, že data vznikají z jednorozměrného normálního rozdělení, pak to znamená

{\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

.

V tomto příkladu se tedy dimenze $k$ rovná 2, jelikož model má dva parametry uvedené v rovnici za dvojtečkou.

Příklad s výškami dětí uvedený výše, má dimenzi modelu 3, jelikož obsahuje tři parametry (dva parametry přímky a rozptyl chyb). Povšimněte si, že geometrická dimenze přímky přitom je pouze 1.

Poznamenejme, že i když formálně $\theta \in \Theta$ je jediný parametr, který má rozměr $k$ , je někdy považován za soubor $k$ samostatných parametrů. Například u jednorozměrného Gaussova rozdělení je $\theta$ formálně jediný parametr s dimenzí 2, ale někdy se považuje za dva samostatné parametry - průměr a směrodatnou odchylku.

Statistický model je neparametrický, pokud je parametr $\Theta$ nekonečnědimenzionální. Statistický model je semiparametrický, pokud má konečněrozměrné i nekonečněrozměrné parametry.

Parametrické modely jsou zdaleka nejčastěji používanými statistickými modely. Pokud jde o semiparametrické a neparametrické modely, Sir David Cox řekl: „Ty obvykle zahrnují méně předpokladů o struktuře a tvaru distribucí, ale obvykle obsahují silné předpoklady o nezávislosti proměnných.“^[8]

Vnořené modely

Dva statistické modely jsou vnořené, pokud lze první model transformovat do druhého modelu zavedením omezení parametrů prvního modelu. Například množina všech normálních rozdělení obsahuje vnořenou množinu normálních rozdělení s nulovou střední hodnotou: tu získáme dodatečným požadavkem, že střed distribuce je nula. Jako druhý příklad můžeme vzít kvadratický model

y = b 0 + b 1 x + b 2 x 2 + ε, ε ~ 𝒩(0, σ 2)

,

který má v sobě vnořen lineární model

y = b 0 + b 1 x + ε, ε ~ 𝒩(0, σ 2)

—zde jsme omezili parametr $b 2$ na hodnotu 0.

V obou těchto příkladech má první model vyšší dimenzi než druhý model. Tak je tomu často, ale ne vždy. Například je množina Gaussových distribucí s kladnou střední hodnotou, která má dimenzi 2, je vnořena do množiny všech Gaussových distribucí, jež má také dimenzi 2.

Porovnávání modelů

Porovnání statistických modelů je zásadní pro většinu statistických inferencí. Konishi & Kitagawa (2008 s. 75) říká: „Většinu problémů statistické inference lze považovat za problémy související se statistickým modelováním. Obvykle jsou formulovány jako srovnání několika statistických modelů.“

Běžná kritéria pro porovnávání modelů jsou například: R², Bayesův faktor a test poměrů věrohodností.

Reference

V tomto článku byl použit překlad textu z článku Statistical model na anglické Wikipedii.

↑ Cox 2006, s. 178
↑ Adèr 2008
↑ ^a ^b McCullagh 2002
↑ Burnham & Anderson 2002, §1.2.5
↑ Cox 2006, s. 197
↑ Konishi & Kitagawa 2008, §1.1
↑ Friendly & Meyer 2016, §11.6
↑ Cox 2006, s. 2

Literatura

ADÈR, H. J. Advising on Research Methods: A consultant's companion. Redakce Adèr H. J.. Huizen, The Netherlands: Johannes van Kessel Publishing, 2008. Kapitola Modelling, s. 271–304. .
BURNHAM, K. P.; ANDERSON, D. R. Model Selection and Multimodel Inference. 2nd. vyd. [s.l.]: Springer-Verlag, 2002. .
COX, D. R. Principles of Statistical Inference. [s.l.]: Cambridge University Press, 2006. .
FRIENDLY, M.; MEYER, D. Discrete Data Analysis with R. [s.l.]: Chapman & Hall, 2016. .
KONISHI, S.; KITAGAWA, G. Information Criteria and Statistical Modeling. [s.l.]: Springer, 2008. .
MCCULLAGH, P. What is a statistical model?. Annals of Statistics. 2002, s. 1225–1310. Dostupné online. DOI 10.1214/aos/1035844977. .

Externí odkazy

Obrázky, zvuky či videa k tématu statistický model na Wikimedia Commons

[1] Cox 2006, s. 178

[2] Adèr 2008

[McCullagh-3] McCullagh 2002

[4] Burnham & Anderson 2002, §1.2.5

[5] Cox 2006, s. 197

[6] Konishi & Kitagawa 2008, §1.1

[7] Friendly & Meyer 2016, §11.6

[8] Cox 2006, s. 2

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]