Analýza dat

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Analýza dat je široká oblast aktivit a technik zpracování a využívání hromadných dat s cílem odhalit užitečné informace a podpořit rozhodování. Používá se ve vědě i v aplikovaných oblastech a její důležitost stále narůstá s tím, jak postupuje digitalizace a automatizace mnoha oblastí. Zahrnuje mimo jiné přípravu, kontrolu, čištění, transformaci, modelování, popis a vizualizaci dat.

K oblastem analýzy dat patří:

  • Statistická analýza dat, která se dále dělí na popisnou statistiku (sumarizace dat), explorační analýzu (EDA, hledá v datech dosud neznámé souvislosti) a konfirmační analýzu (CDA, testuje statistické hypotézy a odhaduje modely).
  • Business intelligence (BI) je analýza dat komerčních organizací, zaměřená na monitorování (Business reporting) a řízení jejich činnosti.
  • Vytěžování dat (data mining) a blízce příbuzná datová věda (data science) jsou oblasti zaměřené na průběžné získávání prakticky použitelných informací z dat s tím, že těžiště data miningu je více v prediktivním modelování (tj. předpovídání chování lidí či jiných jednotek) a těžiště datové vědy více ve zpracování velkých dat (Big data) a tvorbě aplikací.

Analýza dat v sociologickém výzkumu[1][2][editovat | editovat zdroj]

"vědecký výzkum je systematické, kontrolované, empirické a kritické zkoumání hypotetických výroků o předpokládaných vztazích mezi přirozenými jevy." [3]

Vědecký výzkum definujeme jako:[4]

  • systematický a kontrolovaný – znamená kritickou důvěru ve výzkumné výsledky
  • empirické vědecké bádání  – znamená, že vědec musí podrobit svůj názor vnějšímu ověření

Sekundární analýza[5]

  • Mezi zdroje dat pro sekundární analýzu patří archivní data, oficiální statistická data, databanky statistických údajů, datové publikace z výzkumů a datové soubory z výzkumů na počítači.

Formulace úloh pro statistickou analýzu dat[6][editovat | editovat zdroj]

Deskripce[editovat | editovat zdroj]

Nejzákladnější úlohou statistické analýzy dat je popis (deskripce) souboru dat. Soubor jednotek je charakterizován z hledisek jednotlivých znaků a jejich kombinací, a to prostřednictvím tabulek četností (frekvencí) kategorizovaných znaků a výpočtu souhrnných statistických charakteristik spojitých i kategorizovaných znaků.

Komparace[editovat | editovat zdroj]

Jednou z nejčastějších úloh je srovnání souborů nebo podsouborů z hlediska jednoho nebo několika znaků. Porovnává populace státních celků, národů, přirozených sociálních skupin nebo uměle vytvořených agregátů. Klade si za cíl ověřit rozdílnost mezi nimi nebo změření velikost tohoto rozdílu, nebo naopak je její snahou prokázat, že rozdíly mezi nimi jsou zanedbatelné, že tvoří z hlediska zkoumané charakteristiky jeden soubor. Podrobnější informaci poskytuje porovnání statistických rozložení znaku za podsoubory. To je však obtížnější a provádí se zřídka, ve speciálních úlohách.

Měření asociací a korelační analýza[editovat | editovat zdroj]

Třetí skupinou úloh je zjišťování souvislostí mezi znaky (např. vztah mezi kouřením a konzumací alkoholu nebo mezi pozitivním postojem k ekonomické reformě a jednotlivými charakteristikami životní úrovně dotázaného). Zjišťuje, zda vztah mezi znaky je významný. K tomu slouží celá řada statistických testů lišících se podle typů znaků, které dávají do souvislosti. Další velmi častou úlohou je měření síly tohoto prokázaného vztahu. Přitom je třeba rozlišovat, zda se jedná o souvislost mezi dvěma nominálními znaky, mezi znaky pořadovými nebo mezi znaky kardinálními. Každé úrovni odpovídá jiná nabídka koeficientů.

Další metody a možnosti mnohorozměrné analýzy dat[editovat | editovat zdroj]

Existuje množství statistických metod analýzy dat. Jejich velká skupina zkoumá vztahy mezi mnoha znaky současně tj. metody mnohorozměrné analýzy dat. Každá z těchto metod má za sebou jiný matematicko-statistický model, má jiné požadavky na charakter proměnných, které do ní vstupují, klade jiné nároky na výzkumníkovu schopnost formulovat smysluplnou sociologickou úlohu a přeložit ji do řeči čísel a matematických symbolů. Z hlediska sociologa výzkumníka se metody liší zejména modelovou představou úlohy, pro jejíž řešení mají sloužit.

Reference[editovat | editovat zdroj]

  1. HENDL, JAN, 1947-. Přehled statistických metod zpracování dat : analýza a metaanalýza dat. Vyd. 2., opr. vyd. Praha: Portál 583 s. s. Dostupné online. ISBN 80-7367-123-9, ISBN 978-80-7367-123-5. OCLC 320480057 
  2. RABUŠIC, LADISLAV, 1954-. Statistická analýza sociálněvědních dat (prostřednictvím SPSS). 2., přepracované vydání. vyd. Brno: [s.n.] 573 stran s. Dostupné online. ISBN 978-80-210-9248-8, ISBN 80-210-9248-3. OCLC 1135606543 
  3. KERLINGER, Fred N. Draft report of the APA Committee on Ethical Standards in Psychological Research: A critical reaction.. American Psychologist. 1972, roč. 27, čís. 9, s. 894–896. Dostupné online [cit. 2020-11-14]. ISSN 0003-066X. DOI:10.1037/h0038038. 
  4. 1. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online. 
  5. 10. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online. 
  6. 10. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online.