T test

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

T-test (Studentův t-test) je metodou matematické statistiky, která umožňuje ověřit některou z následujících hypotéz:

  1. zda normální rozdělení, z něhož pochází určitý náhodný výběr, má určitou konkrétní střední hodnotu, přičemž rozptyl je neznámý
  2. zda dvě normální rozdělení mající stejný (byť neznámý) rozptyl, z nichž pocházejí dva nezávislé náhodné výběry, mají stejné střední hodnoty (resp. rozdíl těchto středních hodnot je roven určitému danému číslu)

V prvním případě může být náhodný výběr tvořen buď jednotlivými hodnotami (pak se jedná o jednovýběrový t-test), anebo dvojicemi hodnot, u nichž se zkoumají jejich rozdíly (pak se jedná o párový t-test). Ve druhém případě jde o dvouvýběrový t-test.

V praxi se t-test často používá k porovnání, zda se výsledky měření na jedné skupině významně liší od výsledků měření na druhé skupině.

Princip t-testu[editovat | editovat zdroj]

Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou. Rozdíl výběrového průměru a střední hodnoty normovaný pomocí skutečného rozptylu by pak měl normální rozdělení s nulovou střední hodnotou a jednotkovým rozptylem. Skutečný rozptyl však neznáme. Pokud jej nahradíme odhadem pomocí výběrového rozptylu, dostaneme T rozdělení, které je podobné normálnímu rozdělení.

Jednovýběrový t-test[editovat | editovat zdroj]

Označme jednotlivé hodnoty náhodného výběru jako x_1, x_2, ..., x_n, výběrový průměr jako \overline{X} a výběrový rozptyl jako S^2. Test testuje hypotézu, že střední hodnota normálního rozdělení, z něhož výběr pochází, se rovná \mu{}_0.

Platí-li hypotéza, má náhodná veličina T = \frac{\overline{X} - \mu_0}{S / \sqrt{N}} T rozdělení s n-1 stupni volnosti. Hypotézu zamítáme, je-li T příliš velké nebo příliš malé (výběrový průměr se příliš liší od očekávané střední hodnoty). Konkrétně se T porovná s kritickou hodnotou T rozdělení pro předem stanovenou hladinu významnosti.

Párový t-test[editovat | editovat zdroj]

Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot (y_1,z_1), (y_2,z_2), ..., (y_n,z_n), přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny. V párovém t-testu ověřujeme, zda rozdíl středních hodnot rozdělení pro veličiny y a rozdělení pro veličiny z je roven určitému číslu (často nule).

Položíme-li x_i=y_i-z_i a označíme-li \mu{}_0 jako číslo, kterému se má rovnat rozdíl středních hodnot, můžeme párový test zcela převést na případ jednovýběrového t-testu.

Dvouvýběrový t-test[editovat | editovat zdroj]

Označme jednotlivé hodnoty prvního náhodného výběru jako x_1, x_2, ..., x_n, výběrový průměr jako \overline{X} a výběrový rozptyl jako S_x^2. Obdobně označme jednotlivé hodnoty druhého náhodného výběru jako y_1, y_2, ..., y_m, výběrový průměr jako \overline{Y} a výběrový rozptyl jako S_y^2. Oba výběry musejí být vzájemně nezávislé. Nakonec označme \delta číslo, které se má rovnat rozdílu středních hodnot \mu{}_1-\mu{}_2 (jak již bylo řečeno, často \delta=0).

Potom veličina
T=\frac{\overline{X}-\overline{Y}-\delta}{\sqrt{(n-1)S_x^2 + (m-1)S_y^2}} \sqrt{\frac{nm(n+m-2)}{n+m}}
má za platnosti hypotézy, že se rozdíl středních hodnot rovná \delta, T rozdělení o n+m-2 stupních volnosti. Hypotéza se tedy zamítá v případě, že veličina T překročí kritickou hodnotu T rozdělení o uvedeném počtu stupňů volnosti.

Poznámky[editovat | editovat zdroj]

Předpoklad, že oba výběry pocházejí z normálního rozdělení, nemusí být za každou cenu dodržen. T-test totiž pracuje s průměry obou výběrů, a ty již při rozsahu výběru v řádu desítek mají přibližně normální rozdělení díky centrální limitní větě.

Před provedením t-testu by mělo být prověřeno, že oba náhodné výběry mají stejný rozptyl. K tomu může posloužit F-test. Existují i modifikace t-testu pro výběry s různými rozptyly.

Pokud je rozsah výběru (resp. obou výběrů) velký (v řádu stovek a víc), lze místo kritických hodnot T rozdělení použít kritické hodnoty normálního rozdělení.

Je-li skupin hodnot (tj. náhodných výběrů) víc než dva, je správnější provést simultánní porovnání pomocí analýzy rozptylu než opakovanými t-testy po dvojicích.

Literatura[editovat | editovat zdroj]

Anděl, J.: Matematická statistika, SNTL 1985.