Reliabilita

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Reliabilita (angl. reliabilityspolehlivost, hodnověrnost) je statistická veličina, udávající spolehlivost testu, který měří lidské vlastnosti. Jako taková se používá v rámci takzvané klasické testové teorie. Je vyjádřena jako relativní nepřítomnost chyby při měření a lze ji také chápat jako charakteristiku testové metody.[1] V těchto významech je používána ve statistických vědách, psychometrice, ekonometrii apod.

Základní charakteristika[editovat | editovat zdroj]

Podle klasické testové teorie reliabilita nabývá hodnoty 0 (žádná) až 1 (100%) a lze ji přibližně chápat jako procentuální nepřítomnost chyby měření. V psychologii není možné měřit přímo osobnostní vlastnosti (například inteligenci), ale jen jejich projevy. Tyto projevy jsou nutně zkreslené a ovlivněné i jinými faktory, než měřenou proměnnou, a naměřený skór proto lze vyjádřit jako součet pravého (měřeného) skóru a chyby měření, kde X_{i} je naměřený skór, \tau_{i} skutečný skór a E_{i} je chyba měření.:

 X_{i} = \tau_{i} + E_{i}

Stejný vztah platí i pro rozptyly celého měření - celkový rozptyl naměřených hodnot se skládá z rozptylu pravých skórů a rozptylu chyb měření:[1]

 \sigma_{X}^2 = \sigma_{\tau}^2 + \sigma_E^2

Formální definice reliabilita je proto podíl variability pravých skórů k celkové variabilitě, tedy [1]:

 r_{xx'} = \frac{{\sigma}^2_T}{{\sigma}^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X }

kde r_{xx'} je symbol pro reliabilitu, \sigma^2_X, \sigma^2_T, a \sigma^2_E jsou naměřená variabilita, variabilita skutečného skóru a chybového skóru.

Reliabilita bývá označována jako r_{xx'} proto, že ji lze abstraktně chápat jako odhad minimální korelace proměnné se sebou samotnou. Pokud by bylo možné test opakovat (což možné není, protože samotné měření mění vlastnosti pozorovaného subjektu), pak by korelace výsledků těchto opakovaných měření byla rovna nebo větší odhadnuté reliabilitě. Protože neexistuje způsob, jak odlišit podíl pravých skórů a chyb měření, je možné míru reliability pouze odhadovat. Jiným způsobem, jak měřit velikost chyb měření, je kromě reliability i teorie zobecnitelnosti.[1]

Chyba měření v rámci klasické testové teorie[editovat | editovat zdroj]

Reliabilita je v rámci klasické testové teorie používána k určení chyby měření. Protože je reliabilita „standardizovaným ukazatelem“, je nutné ji převést na jednotky původní škály pomocí vztahu

 SE = \sigma_{X} \sqrt{ 1 - r_{xx'} }

kde SE je chyba měření a \sigma_{X} směrodatná odchylka testu. Pro konstrukci intervalu spolehlivosti pak stačí výslednou hodnotu vynásobit příslušným kvantilem normálního rozložení (např. pro 95% hodnotou 1,96). Takto získaný interval je však intervalem spolehlivosti pouze pro pozorované skóre; výpočet intervalu pravého skóre je komplikovanější a popisují jej například Lord a Novick.[2]

Chyba měření v rámci teorie odpovědi na položku[editovat | editovat zdroj]

Jiné psychometrické postupy nicméně používají odlišný způsob uvažování o reliabilitě. Například teorie odpovědi na položku používá odlišné indexy s jiným významem, které lze chápat jako analogie reliability v pojetí klasické testové teorie. K odhadu standardní chyby měření pak slouží například informační funkce položky, pomocí které je pro každé latentní skóre stanoven jiný odhad chyby měření.

Reliabilita versus validita[editovat | editovat zdroj]

Validita, reliabilita a objektivita jsou tři základní údaje, které je nutné uvádět u každého testu jako vědecké metody v případě, že nelze danou vlastnost měřit přímo (tedy jako například teplotu, vzdálenost apod.) - tento případ nastává zejména ve společenských vědách. Validita udává, zda test skutečně měří měřenou vlastnost. Reliabilita nám říká, jak dobře metoda měří, hovoří o technické kvalitě měřícího nástroje. Reliabilitu proto lze chápat jako nutný předpoklad validity a test může být sice spolehlivý (mít vysokou reliabilitu), ale může měřit něco jiného, než co si myslíme, a tedy jeho validita může být nízká. Vztah mezi reliabilitou a validitou je vztah mezi přesností a správností. Velikost reliability navíc určuje maximální možnou teoretickou validitu testu: validita nemůže být vyšší než odmocnina z reliability.[3]

Příklad z psychologie: chceme změřit inteligenci některého člověka testem inteligence. Validita nám řekne, zda test inteligence měří skutečně inteligenci, nebo něco jiného (například schopnost číst, která je i otázkou toho, co se člověk naučil). Reliabilita nám řekne, jak přesně test tuto vlastnost změří.

Požadovaná úroveň reliability[editovat | editovat zdroj]

Podle Helmstadterova pravidla by měla reliabilita testu nabývat různých hodnot podle cíle měření[4]:

  • 0,50 pro hodnocení výkonu skupiny;
  • 0,90 pro hodnocení rozdílů v úrovni výkonu skupiny u dvou a více výkonů;
  • 0,94 pro hodnocení úrovně individuálního výkonu;
  • 0,98 pro hodnocení rozdílů v úrovních individuálního výkonu ve dvou a více výkonech.

V praxi ale takto vysoké reliability dosahuje jen málo metod, a proto se většinou používá shovívavější Klinovo pravidlo říkající, že by reliabilita metody měla být alespoň 0,7[5]. Reliabilita je také podmínkou validity: platí totiž, že odmocnina z reliability se rovná maximální možné validitě.[1]

Typy reliability[editovat | editovat zdroj]

Reliabilitu lze chápat více různými způsoby, zde jsou uvedeny některé z nich.

Reliabilita jako vnitřní konzistence[editovat | editovat zdroj]

Jde o jednu z nejčastěji používaných druhů reliability, udávanou nejčastěji koeficientem Cronbachovo alfa. Tato reliabilita vychází z předpokladu, že by všechny položky měřící jednu vlastnost měly mít mezi sebou kladné, dostatečně vysoké korelace. Tento typ reliability však naráží na tzv. psychometrický paradox: tedy čím vyšší je vnitřní konzistence, tím nižší je validita metody. To proto, že při měření latentních proměnných chceme zachytit celou šíři aspektů daného faktoru, avšak při vysoké vnitřní konzistenci všechny položky měří zhruba to stejné - jde tedy o neustálé vyvažování reliability a validity. Vnitřní konzistence také z principu roste s počtem položek.

Cronbachovo alfa má následující vzorec:[1]

\alpha = \frac{k}{k - 1} \left(1 - \frac{\sum_{i=1}^k \sigma_i^2}{\sigma_t^2}\right)

kde k je počet položek, \sigma_i^2 je rozptyl i-té položky a \sigma_t^2 je rozptyl celého testu.

Kuder-Richardsonova reliabilita[editovat | editovat zdroj]

Jde o speciální případ vnitřní konzistence určený pro dichotomické položky, který částečně řeší reliabilitu u časových úloh. Pracuje totiž s homogenitou - podle obtížnosti seřazené položky testu by tedy měla osoba řešit bez potíží až do okamžiku, kdy dojde k položkám těžším, než může zvládnout. Dál by měla být schopna splnit jen velmi málo úloh. Pro vyjádření tohoto typu reliability bývá nejčastěji použit koeficient KR-20 či KR-21. Jde o historicky starší koeficient, než Cronbachovo alfa, a ve většině případů poskytuje obdobné výsledky. Jeho výhodou je nižší výpočetní náročnost, díky které lze snadno spočítat i ručně.

Postup pro výpočet koeficientu KR-20 je:

 r_{xx'} = \frac{n}{n-1} \cdot \frac{\sigma^2_X - \sum_{j=1}^n p_j q_j}{\sigma^2_X} ,

kde n je počet položek testu, \sigma^2_X jejich rozptyl, p_j podíl osob, které mají j-tou položku zodpovězenou správně a q_j podíl osob, které ji správně nezodpověděly; p_j q_j je proto rozptyl dichotomické položky. Koeficient KR-21 je specifikací výše uvedeného výpočtu a je určený pro test, ve kterém všechny položky mají přibližně stejnou obtížnost.

Test-retest reliabilita[editovat | editovat zdroj]

Též často udávaný typ reliability nám říká, jak moc spolu koreluje ten samý test při opakovaném použití na těch samých lidech (tedy vždy naměří to stejné). Zpravidla lze využít běžných koeficientů korelace. Nevýhody jsou však dvě:

  • Většina psychických vlastností je v čase proměnlivá, proto s větším časovým rozestupem se nutně musí lišit i dosažený výsledek, což reliabilitu snižuje.
  • Naopak při administraci po uplynutí příliš krátké doby vzniká tzv. efekt zácviku a nadhodnocení reliability kvůli zapamatování si položek. Doporučuje se proto rozestup minimálně 3 měsíce.

Reliabilita paralelních forem[editovat | editovat zdroj]

Výzkumník vytvoří dvě verze testu, které administruje jedinému respondentovi a vzájemně je pak koreluje. Vytvořit však zcela stejné testy není možné, a proto ani reliabilita paralelních forem nemůže být přiměřeně vysoká. K tomuto tzv. vyrovnávání forem testů bylo vyvinuto větší množství metod.

Split-half reliabilita[editovat | editovat zdroj]

Vzniká rozdělením testu na dvě poloviny a jejich vzájemnou korelací. To částečně řeší předchozí problém, tento postup (stejně jako vnitřní konzistenci) však není možné aplikovat u výkonových testů omezených časem. Další nevýhoda split-half reliability tkví ve zkrácení testu, která automaticky reliabilitu snižuje (existuje vyšší pravděpodobnost "náhodného" zodpovězení položky určitým konkrétním způsobem). Proto se většinou používá Spearman-Brownův vzorec (angl. Spearman-Brown prophecy phormula, tedy Spearman-Brownův věštecký vzorec), který slouží k odhadu reliability pro celý, nezkrácený test:

 r_{xx'} = \frac{mr'_{xx'}}{1 + (m - 1)r'_{xx'}}

kde r'_{xx'} je reliabilita získaná původním výpočtem, m je poměr délky původního testu k délce testu zkráceného (u split-half reliability tedy m = 2) a r_{xx'} je odhad výsledné reliability testu m-krát delšího než je délka zkráceného testu.[1] Tento vzorec se používá i pro odhad, o kolik je nutno zvýšit počet položek nevyhovujícího testu, abychom dosáhli požadované velikosti reliability.

Reliabilita jako shoda pozorovatelů[editovat | editovat zdroj]

Pro určení reliability v kvalitativním výzkumu bývá často používaná shoda pozorovatelů - tedy míra, s jakou dva různí výzkumníci posoudí stejný jev stejně. V případě dvou výzkumníků a alespoň ordinální proměnné lze využít běžnou korelaci. V případě většího počtu posuzovatelů lze použít koeficient konkordance, v případě nominálních proměnných zase koeficient kappa.

Odkazy[editovat | editovat zdroj]

Související články[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. a b c d e f g URBÁNEK, Tomáš; DENGLEROVÁ, Denisa; ŠIRŮČEK, Jan. Psychometrika: Měření v psychologii. Praha : Portál, 2011. ISBN 978-80-7367-836-4.  
  2. LORD, Frederic M.. Statistical Theories of Mental Test Scores. [s.l.] : Addison-Wesley Publishing Company, 1968. ISBN 978-0394347714. (anglicky) 
  3. URBÁNEK, Tomáš. Základy psychometriky. Brno : Masarykova univerzita, 2002. ISBN 80-210-2797-5.  
  4. HELMSTADTER, G. C.. Principles of Psychological Measurement. Engelwood Cliffs, NJ : Prentice-Hall, Inc., 1964. ISBN 9780137096671.  
  5. KLINE, Paul. The handbook of psychological testing. London : Routledge, 1993. ISBN 978-0415211581.