Standardní chyba

Standardní chyba neboli směrodatná chyba,^[1] v počítačových výstupech obvykle označovaná standard error nebo S.E., je číslo, které udává, s jakou typickou nepřesností odhadujeme nějakou veličinu z naměřených dat zatížených výběrovou chybou. Popisuje tedy nepřesnost měření v situaci, když zkoumanou veličinu odhadujeme na základě výběrového šetření, kdy namísto celé populace zkoumáme jen výběr (vzorek) pravděpodobnostně vybraných jednotek. Čím větší standardní chyba je, tím méně přesně dokážeme veličinu z dat odhadnout. Standardní chyba nezahrnuje jiné typy zkreslení a chyb odhadů, které mohou vzniknout například špatným, nereprezentativním výběrem jednotek do zkoumaného vzorku anebo neadekvátním modelem pro odhad zkoumané veličiny.

Přesně je směrodatná chyba definovaná jako směrodatná odchylka výběrové distribuce sledované veličiny. Určovat ji přímo podle této definice však není praktické, protože by to vyžadovalo mnohokrát zopakovat výběrové šetření pokaždé s jiným výběrem o stejném rozsahu, a potom spočítat výběrovou směrodatnou odchylku odhadů zkoumané veličiny, která by byla odhadem standardní chyby. Náklady na výběrové šetření by se tak zmnohonásobily. Proto se směrodatná chyba odhaduje na základě dat daného jednoho výběru. Pro jednodušší případy, jako je směrodatná chyba aritmetického průměru nebo směrodatná chyba procentuálního zastoupení nějaké vlastnosti v souboru, se používají vzorce odvozené na základě teorie příslušných rozdělení. Pro složité případy, kde vzorec není znám, se dá použít vhodně zvolená metoda resamplingu, nejspíše bootstrapping.

Vzorce pro výpočet standardní chyby[editovat | editovat zdroj]

Pro směrodatnou chybu aritmetického průměru platí při velkém rozsahu výběru a velké (potenciálně nekonečné) populaci, z níž vybíráme, tento vzorec:

{\sigma }_{\bar {x}}\ \approx {\frac {s}{\sqrt {n}}},

kde

s je výběrová směrodatná odchylka zkoumané veličiny a

n je rozsah výběru (počet pozorování).

Pro směrodatnou chybu poměru zastoupení p (např. podílu voličů nějaké strany na všech respondentech průzkumu veřejného mínění) platí za podobných předpokladů:

{\sigma }_{\bar {p}}\ \approx {\sqrt {\frac {p\,(1-p)}{n}}}.

Je-li podíl vyjádřen v procentech, obdobný vzorec je:

{\sigma }_{\bar {p}}\ \approx {\sqrt {\frac {p\,(100-p)}{n}}}\,\%,

kde p je procento případů s touto vlastností v našem výběru.

Standardní chyba a znalost distribuce odhadované veličiny umožňuje zkonstruovat interval spolehlivosti odhadované veličiny. Při vysokých rozsazích výběrů (v praxi u nepříliš šikmých a špičatých rozdělení od zhruba n = 30) se v důsledku centrální limitní věty výběrové odhady chovají jako gaussovsky rozdělené veličiny, při menších rozsazích se používá Studentovo rozdělení. V případě normálního rozdělení se obvyklý 95% interval spolehlivosti určí jako odhad ± 1,96 · směrodatná chyba.

Příklad[editovat | editovat zdroj]

Na výběru o rozsahu n = 100 respondentů jsme zjistili, že 35 % z nich souhlasí s navrhovaným zákonem. Směrodatnou chybou tohoto údaje tedy je

{\sigma }_{\bar {p}}\ \approx {\sqrt {\frac {35\,(100-35)}{100}}}\,\%={\sqrt {22{,}75}}\,\%\approx 4{,}8\,\%.

Z toho lze určit 95% interval spolehlivosti jako 35 % ± 1,96 · 4,8 % = 35 % ± 9,4 % = <25,6 %, 44,4 %>. V celé populaci tedy s 95% pravděpodobností se zákonem souhlasí něco mezi 25,6 % a 44,4 % lidí.