Multiple Imputation

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Chybějící hodnoty v analyzovaných datech mohou způsobovat velmi zásadní zkreslení výsledků a následně tak zapříčinit chybné rozhodnutí. K řešení tohoto problému není příliš vhodné použít tzv. ad-hoc přístupy. Proto byly vyvinuty metodiky pro práci s chybějícími daty, jako například multiple imputation, která může být použita v mnoha odvětvích výzkumu (biomedicíně, sociálnímu výzkumu, atd.).

Menší nevýhodou metody MI je, že vyžaduje interakci s uživatelem, protože po vytvoření zvoleného počtu datových souborů se nad nimi provádí analýza, kterou uživatel musí předem stanovit.

Princip[editovat | editovat zdroj]

Grafické znázornění postupu metody multiple imputation

Metodu Multiple Imputation (MI) lze realizovat velmi intuitivním postupem. K jejímu provedení stačí pouze zdravý úsudek a znalost základních regresních metod. Jak lze odvodit z obrázku, postup metody je realizován ve třech krocích. Nejdříve vytvoříme jednotlivé datové soubory, v dalším kroku nad nimi provedeme analýzu a závěrem se jednotlivé výsledky analýz zkombinují.

Vytváření hodnot[editovat | editovat zdroj]

Velmi důležitou částí metody je doplnění chybějících dat. Tato data musí být doplněna podle správného modelu, který odpovídá vztahům v datovém souboru. Je důležité soustředit pozornost na výběr správných dostupných dat, která se podílejí na vytvoření modelu, aby doplněná hodnota co nejlépe odpovídala skutečnosti. Výpočetní model může být reprezentován například pomocí regresní přímky, která vytváří vždy odlišnou hodnotu pro jiná vstupní data. Regresní přímku můžeme vytvořit například pomocí metody nejmenších čtverců. Stále je zde však problém určité nereálnosti doplňovaných dat, protože pro stejný vstup vždy dostanete stejnou výslednou hodnotu, což neodpovídá skutečnosti. Proto k rovnici přímky doplníme směrodatnou odchylku směrnice. Ta nám zajistí určitou náhodnost výsledných doplněných dat.

Postup metody MI[editovat | editovat zdroj]

Než přistoupíme k prvnímu kroku metody, musí být určeno kolik různých datových souborů budeme vytvářet neboli kolik různých hodnot se pro každá chybějící data bude počítat. Počet datových souborů m je vhodné volit mezi intervalem 3 až 10 [1]. Po určení hodnoty m bychom měli také vytvořit stejný počet výpočetních modelů pro neznáme hodnoty.

První krok[editovat | editovat zdroj]

První krok spočívá ve vytvoření datových souborů a na každý použijeme jiný datový model. Vytvořením několika “uvěřitelných” datových souborů nám později umožní pomocí průměru vytvořit lepší odhad o chybějících datech. Je tedy vytvořeno m datových souborů, Y^l=\{{Y^l}_mis,Y_{obs}\},l=1,...,m, kde Yobs jsou dostupná data a {Y^l}_mis představuje l výpočtů Y_{mis} chybějících dat.

Druhý krok[editovat | editovat zdroj]

V druhém kroku se provádí analýza dat. Analýza je aplikována na každý datový soubor jednotlivě, jako kdyby se jednalo o reálná data. Pod pojmem analýza si lze představit jakoukoliv analýzu, kterou máme v úmyslu nad daty provádět (např. výpočet průměru, regrese, ...). Výsledkem z druhého kroku bude odhad analýzy Q=Q(Y^l) a její odchylky U=U(Y^l),l=1,...,m.

Třetí krok[editovat | editovat zdroj]

V posledním (třetím) kroku se kombinují všechny provedené analýzy do celkového odhadu průměrováním:

\bar{Q}=\frac{1}{m} \sum_{i=1}^m Q_i.

Celková odchylka T odhadu se skládá ze dvou částí z průměru všech odchylek

\bar{U}=\frac{1}{m} \sum_{i=1}^m U_i

a z odchylky mezi jednotlivými odhady datových souborů

B=\frac{1}{m-1} \sum_{i=1}^m (Q_i - \bar{Q})^2,

která reflektuje chybu v \bar{Q}.

T=\bar{U}+(1+m^{-1})B

Odmocnina z T, pak představuje standardní odchylku odhadu z Q. Pokud by žádná data nechyběla, pak by Q_1,Q_2,...,Q_m byla identická, B se rovnalo nule a T by bylo U. Poměr hodnot B ku U reprezentuje, jak velké množství informace je obsaženo v chybějící části dat v poměru k datům dostupným. [1] [2]

Reference[editovat | editovat zdroj]

  1. Multiple imputation for multivariate missing-data problems : a data analyst's perspective [online]. 1999-03-12, [cit. 2012-08-28]. Dostupné online. (anglicky) 
  2. Multiple Imputation For Missing Data : What Is It And How Can I Use It? [online]. 2003, [cit. 2012-08-28]. Dostupné online. (anglicky) 

Související články[editovat | editovat zdroj]