Boxplot

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání
Obrázek 1: Box plot dat z Michelson–Morleyova experimentu
Obrázek 2: Boxplot s fousky od minima po maximum

V deskriptivní statistice je boxplot neboli krabicový graf či krabicový diagram jeden ze způsobů grafické vizualizace numerických dat pomocí jejich kvartilů. Střední “krabicová“ část diagramu jen shora ohraničena 3. kvartilem, zespodu 1. kvartilem a mezi nimi se nachází linie vymezující medián. Boxploty mohou obsahovat také linie vycházející ze střední části diagramu kolmo nahoru a dolů, tzv. fousky, vyjadřující variabilitu dat pod prvním a nad třetím kvartilem. Odlehlé hodnoty, tzv. outliery, pak mohou být vykresleny jako jednotlivé body.

Boxploty zobratují rozdíly mezí datovými soubory bez jakýchkoli předpokladů normálního rozdělení dat, jsou tedy neparametrické. Rozteče mezi jednotlivými prvky střední části diagramu indikují stupeň disperze (rozptylu) a šikmosti dat. Kromě bodů samotných umožňují také vizuálně odhadnout různé L-estimátory, zejména rozmezí mezi kvartily, rozsah dat, aritmetický průměr a vážený průměr. Boxploty mohou být vykresleny vodorovně nebo svisle.

Typy boxplotů[editovat | editovat zdroj]

Obrázek 3: Stejný Boxplot s fousky po 1,5 IQR

Boxploty jsou vždy jednotné ve významu střední “krabicové“ části diagramu. Horní a spodní hranice označují 3. a 1. kvartil a horizontální linie uvnitř značí vždy druhý kvartil (medián). Fousky však mohou reprezentovat několik různých hodnot, mezi nimi např.:

  • minimum a maximum všech dat[1] (viz obrázek 2)
  • nejnižší údaj 1,5 IQR spodního kvartilu a nejvyšší údaj 1,5 IQR horního kvartilu[2][3] (viz obrázek 3)
  • jedna standardní odchylka nad a pod střední hodnotou dat
  • 9. a 91. percentil
  • 2. a 98. percentil

Veškerá data nezahrnutá mezi fousky by měla být vykreslena jako outliery tečkou, kroužkem, nebo hvězdičkou. Občas však zakreslena nebývají.

Některé boxploty obsahují navíc znak reprezentující aritmetický průměr dat.[2]

Na některých boxplotech jsou fousky po celé své délce doplněny šrafováním.

Vzácně se boxploty vyskytují úplně bez fousků.

Vzhledem k této různorodosti je vhodné popsat užitou konvenci používání vousků a extrémních hodnot v popisu diagramu.


Varianty[editovat | editovat zdroj]

Obrázek 4: Čtyři boxploty, bez zářezů, se zářezy, s proměnnou šířkou

Několik variant boxplotů bylo popsáno výše. Dva nejběžnější typy jsou boxplot s proměnlivou šířkou a zubatý boxplot (viz obrázek 4).

Boxploty s proměnlivou šířkou znázorňují velikost každé skupiny dat pomocí šířky střední části diagramu. Oblíbenou konvencí je zakreslit šířku grafu úměrnou druhé mocnině velikosti skupiny.[1]

Boxploty se zářezy používají “zářezy“ nebo zúžení střední části diagramu v okolí mediánu. Zářezy ukazují i hrubou významnost rozdílu mediánů. Pokud se zářezy dvou boxplotů nepřekrývají, existuje pravděpodobně statisticky významný rozdíl mezi mediány.[1] Šířka zářezů je úměrná mezikvartálnímu rozmezí vzorku a nepřímo úměrná druhé odmocnině z velikosti vzorku. Nicméně existuje nejistota ohledně nejvhodnějšího koeficientu (může se lišit v závislosti na podobnosti rozptylů vzorků).[1] Jednou z konvencí je +/-1.58*IQR/sqrt(n).[3]

Vizualizace[editovat | editovat zdroj]

Obrázek 5: Boxplot a funkce rozdělení pravděpodobnosti normálního N(0,1σ2) rozdělení

Boxplot je rychlý způsob zkoumání jedné nebo více sad dat graficky. Boxploty se můžou zdát primitivnější než histogram nebo odhad hustoty jádra, ale mají některé výhody. Zabírají méně místa, a proto jsou zvláště užitečné pro porovnávání rozdělení četností mezi několika datovými sadami (viz obrázek 1). Volba počtu a šířky košových technik může výrazně ovlivnit vzhled histogramu a volba šířky pásma může silně ovlivnit vzhled odhadu hustoty jádra.

Ač pohled na statistické rozložení pravděpodobnosti je intuitivnější než pohled na boxplot, porovnání boxplotu s distribuční funkcí rozdělení pravděpodobnosti (teoretický histogram) pro normální N(0,1σ2) rozdělení může být užitečným nástrojem pro pochopení boxplotu (viz obrázek 5).

Reference[editovat | editovat zdroj]

  1. a b c d "Variations of Box Plots"(February 1978). The American Statistician32(1): 12–16. doi:10.2307/2683468. 
  2. a b "Some Implementations of the Boxplot"(February 1989). The American Statistician43(1): 50–54. doi:10.2307/2685173. 
  3. a b R: Box Plot Statistics [online]. [cit. 2011-06-26]. Dostupné online. (anglicky) 

V tomto článku byl použit překlad textu z článku Box plot na anglické Wikipedii.