p-hodnota

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

p-hodnota (také označovaná anglicky p-value nebo jako signifikance, v počítačových výstupech někdy zkracovaná p nebo sig.) je číselná hodnota používaná při statistickém testování hypotéz. Testujeme-li na daném statistickém souboru nulovou hypotézu na hladině významnnosti pomocí testové statistiky , lze p-hodnotu definovat dvěma ekvivalentními způsoby:

  • p-hodnota je nejmenší hladina významnosti (infimum hodnot ), při které ještě zamítneme ;
  • p-hodnota je pravděpodobnost, že při platnosti nabývá testová statistika své stávající hodnoty anebo hodnot ještě extrémnějších (nepříznivějších vůči ).

V praxi se p-hodnota používá tak, že si předem stanovíme hladinu významnnosti , poté spočítáme pomocí statistického programu p-hodnotu a porovnáme ji s . Vyjde-li p-hodnota menší než , nulovou hypotézu zamítneme, zatímco v opačném případě prohlásíme, že na základě zkoumaných dat ji s použitím daného testu zamítnout nelze. Čím menší tedy je p-hodnota, tím se nulová hypotéza jeví za jinak stejných podmínek nevěrohodnější.

Příklad[editovat | editovat zdroj]

Hráč provedl 300 hodů hrací kostkou, aby vyzkoušel, zda všechna čísla padají se stejnou pravděpodobností. Chce testovat na hladině významnosti = 0,05. Četnosti jednotlivých výsledků jsou 58, 46, 39, 61, 35 a 61. Test dobré shody vykonejme pomocí softwaru R zadáním příkazů:

 kostka <- c(58, 46, 39, 61, 35, 61)
 chisq.test(kostka)

Výstup je potom:

     Chi-squared test for given probabilities
data:  kostka
X-squared = 13.36, df = 5, p-value = 0.02023

Poněvadž vypočítaná p-hodnota 0,02023 je menší než zvolená hodnota = 0,05, na hladině 0,05 zamítáme nulovou hypotézu stejné pravděpodobnosti všech výsledků a na základě naměřených dat máme za to, že hrací kostka je „cinknutá“.

Kdybychom údaj o p-hodnotě neměli k dispozici, museli bychom v tabulkách vyhledat 95. percentil rozdělení chí-kvadrát o pěti stupních volnosti (df) a porovnat ho s testovou statistikou 13,36. Pokud by – jako v tomto případě – kvantil byl menší než testová statistika, nulovou hypotézu bychom zamítli, a v opačném případě nezamítli. Tento krok nám však p-hodnota ušetřila.

Diskuse[editovat | editovat zdroj]

Oproti klasickému postupu testování spojenému s vyhledáváním kvantilů rozdělení v tabulkách se s využitím p-hodnot práce analytika značně zjednodušuje, neboť pro rozhodnutí o výsledku testu stačí porovnat dvě čísla. Tato snadnost však někdy svádí k mechanickému přístupu, přehlížení dalších faktorů potřebných pro posouzení validity a smyslu testů nebo dokonce k vědomé či nevědomé metodologické nekorektnosti při výzkumu. Je potřeba mít na mysli zejména následující fakta:

  • Není pravda, že by p-hodnota přímo vyjadřovala pravděpodobnost nulové hypotézy anebo pravděpodobnost, že alternativní hypotéza neplatí.
  • p-hodnota není ani pravděpodobnost, že data vznikla čistě náhodou za předpokladu platnosti .
  • p-hodnota nic přímo nevypovídá o velikosti nebo praktické významnosti pozorovaného účinku (viz velikost účinku).
  • Hladina významnosti 0,05 je jen konvence, takže pro posouzení výsledků experimentu je potřeba dodat i další informace o kontextu a o dopadu zjištění.
  • Pokud testujeme mnoho hypotéz zároveň, stane se i při platnosti nulové hypotézy, že některé testy zákonitě vyjdou signifikantní - například při použití hladiny významnosti 0,05 takto vyjde zhruba 5 testů ze 100 provedených při platnosti . Pro správné posouzení více zároveň prováděných testů je potřeba použít mnohonásobné testování (multiple testing).
  • Je neetické zneužívat mnohonásobné testování tím, že výzkumník tak dlouho provádí testy a modifikuje svá data, dokud nezíská p-hodnotu menší než 0,05, aniž by na uvedené manipulace upozornil ve svém výstupu (postup označovaný jako p-hacking). Podobné nekorektní postupy jsou jednou z příčin současné krize replikovatelnosti výzkumných výstupů v řadě disciplin.