Analýza rozptylu

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Analýza rozptylu (anglicky Analysis of variance - ANOVA) je metodou matematické statistiky, která umožňuje ověřit, zda na hodnotu náhodné veličiny pro určitého jedince má statisticky významný vliv hodnota některého znaku, který se u jedince dá pozorovat. Tento znak musí nabývat jen konečného počtu možných hodnot (nejméně dvou) a slouží k rozdělení jedinců do vzájemně porovnávaných skupin. Kvantitativní hodnota znaku přitom nemá povahu míry. Je-li třeba vzít v úvahu i konkrétní kvantitativní hodnotu jako míru určitého znaku, použije se místo analýzy rozptylu lineární model.

Analýza rozptylu je pro víc než jeden znak značně výpočetně náročná metoda a je pro ni téměř vždy potřeba počítač se speciálním statistickým softwarem.

Příklad[editovat | editovat zdroj]

Upozornění: příklad je fiktivní, data v něm nemají reálný původ.

Na náhodném výběru 30 osob bylo zkoumáno, zda na jejich hrubý měsíční příjem mají statisticky významný vliv jejich vzdělání a pohlaví. V tabulce jsou uvedeny údaje za všechny osoby. Platy se uvádějí v tisících Kč.

Č. Plat Pohlaví Vzdělání Č. Plat Pohlaví Vzdělání Č. Plat Pohlaví Vzdělání
1 15 M BM 11 18 M M 21 30 M V
2 16 M BM 12 19 M M 22 27 M V
3 17 M BM 13 16 M M 23 34 M V
4 13 M BM 14 16 M M 24 28 M V
5 15 M BM 15 18 M M 25 25 M V
6 12 Ž BM 16 15 Ž M 26 28 Ž V
7 14 Ž BM 17 17 Ž M 27 25 Ž V
8 11 Ž BM 18 19 Ž M 28 30 Ž V
9 15 Ž BM 19 17 Ž M 29 25 Ž V
10 14 Ž BM 20 16 Ž M 30 26 Ž V

Zkoumanými znaky jsou tedy pohlaví (hodnoty M=muž, Ž=žena) a vzdělání (hodnoty BM=bez maturity, M=s maturitou, V=VŠ/VOŠ). Pro každou kombinaci pohlaví a vzdělání je zastoupeno 5 jedinců.

Předpoklady a princip analýzy rozptylu[editovat | editovat zdroj]

  • Všechny pozorované náhodné veličiny jsou nezávislé s normálním rozdělením a stejným neznámým rozptylem \sigma^2.
  • Náhodné veličiny uvnitř jedné skupiny (pro stejné hodnoty všech sledovaných znaků) mají stejné střední hodnoty, mezi různými skupinami mohou (ale nemusejí) mít různé střední hodnoty.

Analýza rozptylu je založena na porovnávání dvojic modelů. Jeden model je složitější a předpokládá, že statisticky významný vliv má víc znaků, druhý model je jednodušší a předpokládá, že statisticky významný vliv má méně znaků nebo žádný. Pro každý model se rozdělí jedinci do skupin podle významných znaků, v každé skupině se odhadne střední hodnota a potom se sečtou druhé mocniny odchylek náhodných veličin od střední hodnoty. Čím méně parametrů, tím méně skupin a tím větší odchylky od středních hodnot. Pomocí speciální varianty F testu se pak zjistí, zda se součty odchylek pro různé modely od sebe liší natolik, že není možné oba modely prohlásit za rovnocenné. V takovém případě by se zamítl model s větším součtem odchylek. Pokud se součty odchylek významně neliší, je možné přijmout jednodušší model, tedy lze přijmout předpoklad, že na určitém znaku nezáleží.

Obvyklé modely[editovat | editovat zdroj]

Nejpoužívanější modely si objasníme na příkladu dvou znaků A a B:

  1. Ani na znaku A, ani na znaku B nezáleží, náhodné veličiny pro všechny jedince mají stejnou střední hodnotu (nejjednodušší model).
  2. Záleží pouze na znaku A, nikoliv na B. Jedinci se stejnou hodnotou znaku A mají i stejnou střední hodnotu náhodné veličiny, bez ohledu na znak B.
  3. Záleží pouze na znaku B, nikoliv na A. Totéž, co v předchozím modelu, se záměnou znaků.
  4. Záleží na obou znacích, vliv konkrétní hodnoty každého znaku je pevné číslo a tyto vlivy se sčítají (resp. násobí). Znamená to, že konkrétní hodnota znaku A působí stejnoměrně bez ohledu na konkrétní hodnotu znaku B, tyto hodnoty se sčítají (resp. násobí). Model se označuje symbolicky jako A+B.
  5. Záleží na obou znacích, ale jejich vliv není stejnoměrný, nýbrž každá kombinace hodnot znaků A a B má specifickou střední hodnotu (nejsložitější model, nazývaný model s interakcemi). Model se označuje symbolicky jako A+B+A:B.

Tabulka analýzy rozptylu[editovat | editovat zdroj]

Výsledky výpočtů a porovnání dvojic modelů se zaznamenávají do tabulky s ustálenou podobou. Každý řádek tabulky představuje krok od jednoduššího modelu ke složitějšímu a porovnání určité dvojice modelů. Pro zjištění, které znaky jsou významné, resp. jaký model je použitelný, se pak postupuje zdola nahoru.
Následuje tabulka pro výše uvedený příklad.

Znak (zdroj měnlivosti) Součet čtverců Stupně volnosti F hodnota p hodnota
Vzdělání 1026,2 2 121,684 0,000
Pohlaví 17,6 1 4,182 0,052
Pohlaví:Vzdělání 3,3 2 0,387 0,683
Reziduální 101,2 24
Celkem 1148,3 29

Jednotlivé sloupce tabulky mají tento význam:

  • Znak (zdroj měnlivosti) popisuje, který znak nebo kombinace znaků se zařazuje navíc oproti jednoduššímu modelu.
  • Součet čtverců vyjadřuje, o jaké číslo klesne ve složitějším modelu (po zařazení uvedeného znaku či kombinace) součet druhých mocnin odchylek od odhadnutých středních hodnot.
  • Stupně volnosti vyjadřují, kolik parametrů navíc se ve složitějším modelu používá.
  • F hodnota je hodnota testového kritéria, které porovnává dvojici modelů.
  • p hodnota určuje, na jaké hladině významnosti je možné zamítnout hypotézu, že oba použité modely jsou rovnocenné. Porovnává se s předem stanoveným číslem (nejobvykleji s 0,05) a je-li menší, rovnocennost modelů se zamítne.

Interpretace tabulky analýzy rozptylu[editovat | editovat zdroj]

Pro interpretaci tabulky jsou nejdůležitější p hodnoty. Postupujeme zdola nahoru od nejsložitějšího modelu a snažíme se dostat k co nejjednoduššímu. Znaky zastoupené v nejjednodušším použitelném modelu se pak prohlásí za statisticky významné.

  1. V použitém příkladu je nejobecnější model s interakcemi. Nejbližší jednodušší model je aditivní (se sčítáním vlivů). Protože na řádku Pohlaví:Vzdělávání je p hodnota vyšší než 0,05, můžeme oba modely považovat za rovnocenné a přejít od modelu s interakcemi k aditivnímu modelu.
  2. Předchozí řádek odpovídá porovnání aditivního modelu s modelem bez znaku Pohlaví. I zde je p hodnota vyšší než 0,05, i když jen nepatrně, proto opět můžeme přijmout, že oba modely jsou rovnocenné, a přejít k modelu s jediným znakem Vzdělání. Zároveň jsme určili, že znak Pohlaví se ukázal v našem případě jako statisticky nevýznamný pro vliv na výši platu.
  3. První řádek odpovídá porovnání modelu s jediným znakem Vzdělání s modelem bez znaků. Protože zde je p hodnota menší než 0,05, nelze přejít k nejjednoduššímu modelu, tedy znak Vzdělání nelze vyřadit.
  4. Závěr: použitá data prokázala, že na výši platu má statisticky významný vliv vzdělání jedince, naopak pohlaví se ukázalo (byť těsně) jako nevýznamné.

Porovnávání jednotlivých skupin[editovat | editovat zdroj]

Jakmile výpočet prokáže, že je určitý statistický znak významný, má smysl se ptát, zda se významná odchylka projevuje mezi všemi různými hodnotami znaku, anebo zda se chování náhodných veličin pro některé hodnoty znaku mezi sebou neliší. K tomu účelu se používá tzv. mnohonásobné porovnání.

Poznámky[editovat | editovat zdroj]

  • Místo pojmu analýza rozptylu se také používá anglický akronym ANOVA (ANalysis Of VAriance).
  • Předpoklad normality není zcela nezbytný, rozdělení náhodné veličiny však musí být relativně „rozumné“, tj. alespoň blízké normálnímu. Předpoklad o shodnosti rozptylů naopak důležitý je.
  • Analýza rozptylu s jediným znakem vede na případ mnohonásobného porovnávání, kde se zkoumá, zda se pro některé ze skupin liší mezi sebou střední hodnoty veličiny zjištěné na jedincích té které skupiny.
  • Stejný počet pozorování ve všech kategoriích podle zkoumaných znaků (tzv. vyvážené třídění) je výhodný pro některé navazující postupy, není však nezbytný. Celou analýzu lze provést i s velmi rozdílnými a malými počty jedinců v některých kategoriích, samozřejmě s rizikem, že při příliš malém počtu jedinců nebude možné vliv některého znaku prokázat.

Literatura[editovat | editovat zdroj]

Anděl, J.: Matematická statistika, SNTL 1985.