Metoda maximální věrohodnosti

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Úlohou matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech.

Odhad v kontextu statistiky sestává ze dvou částí

  1. formulace pravděpodobnostního modelu, který popisuje danou reálnou situaci
  2. ověření shody daného modelu se skutečností na základě pozorovaných dat.

Z těchto dat se dále odhadují hodnoty volných parametrů modelu. [1] Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů.

Definice[editovat | editovat zdroj]

Pozorovaná data se uvažují jako soubor nezávislých náhodných veličin X_1, X_2, \ldots, X_n stejně rozdělených s neznámou distribuční funkcí  f_{\theta}. Dostupnou informací je, že tato funkce je členem parametrické množiny  \{ g_\theta, \theta \in \Theta \} , jejíž prvky se liší pouze hodnotou  \Theta . Jinými slovy existuje hodnota  \theta_0 taková, že  f_{\theta} = g_{\theta_0}. Protože hodnota  \theta_0 je neznámá, je potřeba se jí pomocí nějakého odhadu \hat{\theta} co nejlépe přiblížit.

Pro soubor stejně rozdělených, nezávislých náhodných veličin platí, že jejich sdruženou distribuci lze faktorizovat (tj. rozdělit na součin jednotlivých rozdělení)

 f( X_1, X_2, \ldots, X_n | \theta ) = f( X_1 | \theta )f(X_2 | \theta)\ldots f(X_n | \theta) = \prod_{i=1}^N f(X_i|\theta)

Chceme-li odhadovat hodnoty \theta, pak získáme přepsáním předchozí rovnice vztah pro odhad  \mathcal{L}(\theta | .)

 \mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) =  f( X_1 | \theta )f(X_2 | \theta)\ldots f(X_n | \theta) = \prod_{i=1}^N f(X_i|\theta)

Funkci  \mathcal{L}(\theta | .) nazýváme věrohodnostní funkce[2].

Velmi často se setkáváme s logaritmem věrohodnostní funkce \mathcal{L}, tj.

 \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) = \sum_{i=1}^N \log f(X_i|\theta)

Jednou z výhod logaritmu je převod součinu na součet, se kterým se v některých případech lépe pracuje.

Jestliže existuje hodnota \hat\theta taková, že pro všechny možné hodnoty parametru \theta platí

 \mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) \leq \mathcal{L}(\hat\theta | X_1, X_2, \ldots, X_n )

pak nazveme \hat\theta maximálním věrohodným odhadem.

Alternativní formulace je

 \hat\theta = \arg\max_{\theta \in \Theta} \mathcal{L}(\theta | X_1, X_2, \ldots, X_n )

Příklady[editovat | editovat zdroj]

Diskrétní rozdělení[editovat | editovat zdroj]

Uvažujme náhodný výběr  (X_1, X_2, X_3, X_4) z alternativního rozdělení, tj. X nabývá pouze hodnot 0 a 1 a sice s pravděpodobností  P(X=1) = p a  P(X=0) = 1-p. Získaná data jsou (0,0,1,0). Úkol je odhadnout hodnotu parametru p, přičemž náš model předpokládá hodnoty buď p=0,2 nebo p=0,8.

Pro pravděpodobnost pozorovaných dat máme podle alternativního rozdělení:

 P(X_1=0, X_2=0, X_3=1, X_4=0) = p(1-p)^3

což je pro p=0,2 rovno 0,1024 a pro p=0,8 rovno 0,0064. Princip maximálního věrohodného odhadu spočívá v tom, že za odhad p vezmeme tu hodnotu, pro kterou je výsledek nejpravděpodobnější, tedy  p=0,2[1].

Spojité rozdělení[editovat | editovat zdroj]

Uvažujme situaci popsanou normálním rozdělením  \mathcal{N}(\mu, \sigma^2) s hustotou

 f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\ \sigma\ } 
                               \exp{\left(-\frac {(x-\mu)^2}{2\sigma^2} \right)},

kde parametr \sigma^2 je znám. Pro odhad parametru \mu metodou maximální věrohodnosti dostáváme vztah

 \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) = \log \left( \prod_{i=1}^N \frac{1}{\sqrt{2\pi}\ \sigma\ } 
                               \exp{\left(-\frac {(X_i-\theta)^2}{2\sigma^2} \right)} \right) = -\frac{n}{2}\log 2\pi - \frac{n}{2} \log \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^N (X_i-\theta)^2

Pro výpočet maximálního věrohodného odhadu  \hat\theta postačuje pomocí první derivace určit maxima funkce na pravé straně, tj. najít řešení rovnice

 \frac{\partial \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n )}{\partial \theta} = \frac{1}{\sigma^2}\sum_{i=1}^N (X_i-\theta) = 0

které je

 \hat\theta = \frac{1}{n}\sum{X_i} = \bar{X}_n

tedy výběrový průměr

Vlastnosti[editovat | editovat zdroj]

Statistické odhady lze charakterizovat pomocí několika základních vlastností.

  • odhad \phi(x) parametrické funkce g(\theta) nazveme nestranný odhad, jestliže odhad není zatížen systematickou chybou, tj. \mathbb{E}_{\theta} \phi(x) = \theta.
  • odhad \phi_n(X_1, X_2, \ldots, X_n) parametrické funkce g(\theta) na základě náhodného výběru X_1, X_2, \ldots, X_n nazveme konzistentní odhad, jestliže zvyšováním počtu pozorování lze chybu odhadu udělat libovolně malou, tj. platí \textstyle P_{\theta} \left( \lim_{n \to \infty} \phi_n(X_1, X_2, \ldots, X_n) = g(\theta) \right) = 1

Přednosti[editovat | editovat zdroj]

V některých případech odhadu parametrů založeném na malém počtu pozorování se maximálně věrohodný odhad nechová nestranně, nicméně při splnění mírných předpokladů má řadu důležitých vlastností [3]

  1. je konzistentní
  2. pro dostatečně velká n má přibližně normální rozdělení, tj. pro odhad \hat\theta a parametr \theta \in \Theta platí  \sqrt{n} (\hat\theta - \theta) \xrightarrow{d} \mathcal{N} \left(0, \mathcal{I}^{-1}(\theta) \right)
    přičemž se jedná o tzv. konvergenci v distribuci. Veličina \mathcal{I}(\theta) označuje Fisherovu informaci, kterou lze chápat jako míru informace o parametru \theta obsažené v jednom pozorování.[1]
  3. je asymptoticky (pro počet pozorování n \to \infty) eficientní, tj. odhaduje neznámý parametr nejlepším možným způsobem.
  4. pro spojité parametrické funkce g(\theta) je maximální věrohodný odhad roven g(\hat\theta)

Nedostatky[editovat | editovat zdroj]

  • Základní předpoklad pro využití maximálního věrohodnostního odhadu je přesný a správný popis pravděpodobnostního modelu. Je-li tento popis reálné situace nepřesný, pak jsou získané odhady nekonzistentní se pozorovanými daty.
  • Věrohodnostní funkce mohou být na základě zvoleného modelu a neznámých parametrů libovolně komplikované. Důsledkem jsou věrohodnostní rovnice, pro které nemusí existovat analytické řešení a při hledání maxima věrohodnostní funkce je pak nutné použít numerické metody.
  • Přednosti maximálního věrohodnostního odhadu vycházejí z asymptotických vlastností. Pro nízké počty pozorování je tedy vhodnější použít jiné metody odhadu.[3]

Využití[editovat | editovat zdroj]

Metoda maximální věrohodnosti má široké využití v matemematické statistice, například

  1. při testování hypotéz
  2. ve faktorové analýze

Navíc se tato metoda často využívá i v jiných oborech, například

  1. při rozpoznávání objektů v obrazových datech
  2. v ekonometrii a modelování finančních trhů
  3. při přesné lokalizaci (pomocí GPS apod.)

Reference[editovat | editovat zdroj]

  1. a b c DUPAČ, Václav; HUŠKOVÁ, Marie. Pravděpodobnost a matematická statistika. Praha : Nakladatelství Karolinum, 2005. 162 s. ISBN 80-246-0009-9. (česky) 
  2. KOHOUT, Václav. Teorie odhadu, Skriptum ZCU [online]. ZČU Plzeň: 22.04.2004. Kapitola 10. Dostupné online. (česky) 
  3. a b STOCKER, Herbert. Angewandte Ökonometrie, Skriptum [online]. Univ. Innsbruck: . Kapitola Maximum-Likelihood. Dostupné online. (německy)