Statistické omyly

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Statistika podle obvyklého mínění přispívá k lepšímu pochopení hromadných jevů. Je-li však použita zavádějícím způsobem, může čtenář uvěřit něčemu jinému, než co ukazují data. K nesprávnému použití nebo zneužití statistiky tedy dochází, když statistickým argumentem podporujeme nepravdu. Může k němu dojít náhodně, někdy je však cílem výhoda nebo zisk pachatele (úmyslné zneužití). Jsou-li statistické závěry nepravdivé nebo nesprávně použité, mluvíme o klamavé statistice.

Past falešné statistiky může velmi škodit v oblasti expertních znalostí. Například napravení klamu v oblasti lékařských věd může trvat desetiletí a stát i lidské životy.

Definice, omezení a souvislosti[editovat | editovat zdroj]

Jedna z definic zneužití statistiky zní: „Použití čísel způsobem, který buď úmyslně, anebo z neznalosti či nepozornosti vede k neoprávněným nebo nesprávným závěrům.“[3] Tento pojem není běžně používám ve statistických textech, ale je zobecněním pojmu statistická lež, který je bohatě ilustrován na příkladech již asi šedesát let.Uvedená definice v sobě zahrnuje několik problémů:[1]

  1. Statistiky obvykle plodí pravděpodobné možnosti; závěry jsou ošidné
  2. Předběžné závěry obsahují chyby s různou četností. Běžně se stává, že 5% z předběžnného testování významnosti je špatně
  3. Statistici nejsou zcela ve shodě v otázce ideálních metod
  4. Statistické metody jsou založeny na určitých předpokladech, které jsou však jen málokdy zcela splněny
  5. Sběr dat je obvykle nějak omezen, ať už eticky, prakticky nebo rozpočtem.

Kniha Jak lhát se statistikou uvádí, že statistiky mohou mít mnoho podob. Ať už statistika ukazuje, že výrobek je „lehký a zároveň na úsporný“ nebo „tenký a levný“, vždy lze diskutovat o číslech. Někteří považují odklon od statistické správnosti např. z důvodu morálky za účelový. Určení viny za zneužití však bývá obtížné, protože vědci, sociologové, statistici a novináři často pracují jako něčí zaměstnanci nebo konzultanti.

Na záludném zneužití statistických výsledků se podílí i posluchač/pozorovatel/veřejnost. Dodavatel poskytuje „statistiku“ jako čísla nebo grafiku (foto před/po události), které umožňují, aby jejich konzument získal (možná neoprávněně) nesprávné závěry. Špatný stav statistické gramotnosti a nestatistická podstata lidské intuice mohou vést k nedorozumění, aniž by nám někdo přímo podsouval chybné závěry. Určení pojmů je příliš slabé, než aby mohlo být zodpovědné za spotřebitele statistiky.

Jednoduché příčiny[editovat | editovat zdroj]

Ke zneužití statistiky může dojít, protože

  • Zdroj informací je odborníkem v daném oboru, ale ne v oboru statistiky. Autor může použít chybnou metodu nebo interpretaci výsledků.
  • Zdroj informací je statistik, ale ne expert v daném oboru. Odborník by měl poznat, kdy čísla, která porovnává, popisují různé věci. Čísla se na rozdíl od skutečnosti mění, když se změní právní definice nebo politické hranice.
  • Předmět zájmu není správně definován. Zatímco IQ testy jsou snadno dostupné jako číslo, je obtížné definovat, co vlastně měří. Inteligence je těžko pochopitelný pojem. Zveřejnění „dopadu“ je stejný problém.[2] Zdánlivě jednoduchá otázka o počtu slov v anglickém jazyce okamžitě narazí na otázky o archaické formě, včetně předpon a přípon, více definic slova, variant pravopisu, dialektů, technické slovní zásoby...
  • Kvalita dat je nízká. Dobrým příkladem je oblečení. Lidé mají širokou škálu velikostí a tvarů těla. Je zřejmé, že velikosti oblečení musí být vícerozměrné. Místo toho jsou překvapivě komplexní. Některé oblečení se prodává pouze podle jedné velikosti (aniž je uvážen tvar těla), velikosti se liší podle země a výrobce a jsou záměrně zavádějící. Přestože rozměry jsou číselné, umožňují pouze nejhrubší statistickou analýzu.
  • Populární novináři mají jen málo odborných znalostí a také různou motivaci.[3] Pokud fakta nudí, nepřinášejí „nic nového“ (což může vyžadovat použití nadsázky) často nebývají zveřejněna. Dojde tak snadno k publikování faktů vytržených ze souvislosti. Motivace inzerentů je ještě zmatenější.
  • „Politici používají statistiku, stejným způsobem, jako opilý ponocný lampu, spíše jako oporu, než jako osvětlení“ – Andrew Lang (WikiQuote). Pojem „statistika“ původně znamenal čísla generovaná a využívaná státem. Dobrá vláda může vyžadovat přesná čísla, ale populární vláda může vyžadovat čísla pro svou podporu, což nutně není to samé. „Použití a zneužití statistiky vládou je starověké umění.“

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Misuse of statistics na anglické Wikipedii.

  1. GARDENIER, John; RESNIK, David. The misuse of statistics: concepts, tools, and a research agenda. Accountability in Research: Policies and Quality Assurance. 2002, s. 65–74. DOI:10.1080/08989620212968. PMID 12625352. (anglicky) 
  2. ADLER, Robert; JOHN EWING; PETER TAYLOR. Citation statistics. Statistical Science. 2009, s. 1–14. DOI:10.1214/09-STS285. (anglicky) 
  3. WEATHERBURN, Don. Uses and abuses of crime statistics. Crime and Justice Bulletin: Contemporary Issues in Crime and Justice. NSW Bureau of Crime Statistics and Research, November 2011. Dostupné v archivu pořízeném z originálu dne June 21, 2014. ISSN 1030-1046. ISBN 9781921824357. (anglicky)  This Australian report on crime statistics provides numerous examples of interpreting and misinterpreting the data.