Metoda maximální věrohodnosti

Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Jednou z hlavních úloh matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech.

Odhad v kontextu matematické statistiky sestává ze dvou částí

formulace pravděpodobnostního modelu, který popisuje danou reálnou situaci
ověření shody daného modelu se skutečností na základě pozorovaných dat.

Z těchto dat se dále odhadují hodnoty volných parametrů modelu. ^[1] Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů.

Definice

Pozorovaná data se uvažují jako soubor stejně rozdělených nezávislých náhodných veličin $X_{1},X_{2},\ldots ,X_{n}$ s neznámou funkcí hustoty $f_{\theta }$ . Dostupnou informací je, že tato funkce náleží do parametrické množiny $\{g_{\theta },\theta \in \Theta \}$ , jejíž prvky se liší pouze hodnotou parametru $\Theta$ . Jinými slovy existuje hodnota $\theta _{0}$ taková, že $f_{\theta }=g_{\theta _{0}}$ . Protože hodnota $\theta _{0}$ je neznámá, je potřeba se jí pomocí nějakého odhadu ${\hat {\theta }}$ co nejlépe přiblížit.

Pro soubor stejně rozdělených, nezávislých náhodných veličin platí, že jejich sdruženou hustotu lze faktorizovat (tj. rozdělit na součin hustot jednotlivých rozdělení)

f(X_{1},X_{2},\ldots ,X_{n}|\theta )=f(X_{1}|\theta )f(X_{2}|\theta )\ldots f(X_{n}|\theta )=\prod _{i=1}^{N}f(X_{i}|\theta )

Chceme-li odhadovat hodnoty $\theta$ , pak získáme přepsáním předchozí rovnice vztah pro odhad ${\mathcal {L}}(\theta |.)$

{\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=f(X_{1}|\theta )f(X_{2}|\theta )\ldots f(X_{n}|\theta )=\prod _{i=1}^{N}f(X_{i}|\theta )

Funkci ${\mathcal {L}}(\theta |.)$ nazýváme věrohodnostní funkce^[2].

Velmi často se využívá logaritmus věrohodnostní funkce ${\mathcal {L}}$ , tj.

\log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{N}\log f(X_{i}|\theta )

Jednou z výhod logaritmu je převod součinu na součet, se kterým se v některých případech lépe pracuje.

Jestliže existuje hodnota ${\hat {\theta }}$ taková, že pro všechny možné hodnoty parametru $\theta$ platí

{\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})\leq {\mathcal {L}}({\hat {\theta }}|X_{1},X_{2},\ldots ,X_{n})

pak nazveme ${\hat {\theta }}$ maximálním věrohodným odhadem.

Alternativní formulace je

{\hat {\theta }}=\arg \max _{\theta \in \Theta }{\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})

Příklady

Diskrétní rozdělení

Uvažujme náhodný výběr $(X_{1},X_{2},X_{3},X_{4})$ z alternativního rozdělení, tj. $X$ nabývá pouze hodnot 0 a 1 a sice s pravděpodobností $P(X=1)=p$ a $P(X=0)=1-p$ . Získaná data jsou (0,0,1,0). Úkol je odhadnout hodnotu parametru $p$ , přičemž náš model předpokládá hodnoty buď p = 0,25 nebo $p=0,8$ .

Pro pravděpodobnost pozorovaných dat máme podle alternativního rozdělení:

P(X_{1}=0,X_{2}=0,X_{3}=1,X_{4}=0)=p(1-p)^{3}

což je pro $p=0,25$ rovno 0,1055 a pro $p=0,8$ rovno 0,0064. Princip maximálního věrohodného odhadu spočívá v tom, že za odhad $p$ vezmeme tu hodnotu, pro kterou je výsledek nejpravděpodobnější, tedy $p=0,25$ ^[1].

Spojité rozdělení

Uvažujme situaci popsanou normálním rozdělením ${\mathcal {N}}(\mu ,\sigma ^{2})$ s hustotou

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},

kde parametr $\sigma ^{2}$ je znám. Pro odhad parametru $\mu$ metodou maximální věrohodnosti dostáváme vztah

\log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=\log \left(\prod _{i=1}^{N}{\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(X_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)}\right)=-{\frac {n}{2}}\log 2\pi -{\frac {n}{2}}\log \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{N}(X_{i}-\theta )^{2}

Pro výpočet maximálního věrohodného odhadu ${\hat {\theta }}$ postačuje pomocí první derivace určit maxima funkce na pravé straně, tj. najít řešení rovnice

{\frac {\partial \log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})}{\partial \theta }}={\frac {1}{\sigma ^{2}}}\sum _{i=1}^{N}(X_{i}-\theta )=0

které je

{\hat {\theta }}={\frac {1}{n}}\sum {X_{i}}={\bar {X}}_{n}

tedy výběrový průměr.

Vlastnosti

Statistické odhady lze charakterizovat pomocí několika základních vlastností:

Odhad $\phi (x)$ parametrické funkce $g(\theta )$ nazveme nestranný odhad, jestliže odhad není zatížen systematickou chybou, tj. $\mathbb {E} _{\theta }\phi (x)=\theta$ .
Odhad $\phi _{n}(X_{1},X_{2},\ldots ,X_{n})$ parametrické funkce $g(\theta )$ na základě náhodného výběru $X_{1},X_{2},\ldots ,X_{n}$ nazveme konzistentní odhad, jestliže zvyšováním počtu pozorování lze chybu odhadu udělat libovolně malou, tj. platí $\textstyle P_{\theta }\left(\lim _{n\to \infty }\phi _{n}(X_{1},X_{2},\ldots ,X_{n})=g(\theta )\right)=1$ .

Přednosti

V některých případech odhadu parametrů založeném na malém počtu pozorování se maximálně věrohodný odhad nechová nestranně, nicméně při splnění mírných předpokladů má řadu důležitých vlastností ^[3].

Je konzistentní.
Pro dostatečně velká $n$ má přibližně normální rozdělení, tj. pro odhad ${\hat {\theta }}$ a parametr $\theta \in \Theta$ platí ${\sqrt {n}}({\hat {\theta }}-\theta ){\xrightarrow {d}}{\mathcal {N}}\left(0,{\mathcal {I}}^{-1}(\theta )\right)$ .
Přičemž se jedná o tzv. konvergenci v distribuci. Veličina ${\mathcal {I}}(\theta )$ označuje Fisherovu informaci, kterou lze chápat jako míru informace o parametru $\theta$ obsažené v jednom pozorování.^[1]
Je asymptoticky (pro počet pozorování $n\to \infty$ ) eficientní, tj. odhaduje neznámý parametr nejlepším možným způsobem.
Pro spojité parametrické funkce $g(\theta )$ je maximální věrohodný odhad roven $g({\hat {\theta }})$ .

Nedostatky

Základní předpoklad pro využití maximálního věrohodnostního odhadu je přesný a správný popis pravděpodobnostního modelu. Je-li tento popis reálné situace nepřesný, pak jsou získané odhady nekonzistentní s pozorovanými daty.
Věrohodnostní funkce mohou být na základě zvoleného modelu a neznámých parametrů libovolně komplikované. Důsledkem jsou věrohodnostní rovnice, pro které nemusí existovat analytické řešení a při hledání maxima věrohodnostní funkce je pak nutné použít numerické metody.
Přednosti maximálního věrohodnostního odhadu vycházejí z asymptotických vlastností. Pro nízké počty pozorování je tedy vhodnější použít jiné metody odhadu.^[3]

Využití

Metoda maximální věrohodnosti má široké využití v matematické statistice, například

při testování hypotéz,
ve faktorové analýze.

Navíc se tato metoda často využívá i v jiných oborech, například

při rozpoznávání objektů v obrazových datech,
v ekonometrii a modelování finančních trhů,
při přesné lokalizaci (pomocí GPS apod.).

Reference

↑ ^a ^b ^c DUPAČ, Václav; HUŠKOVÁ, Marie. Pravděpodobnost a matematická statistika. Praha: Nakladatelství Karolinum, 2005. 162 s. ISBN 80-246-0009-9.
↑ KOHOUT, Václav. Teorie odhadu, Skriptum ZCU [online]. ZČU Plzeň: 22.04.2004 [cit. 2011-03-31]. Kapitola 10. Dostupné v archivu pořízeném dne 2013-05-12.
↑ ^a ^b STOCKER, Herbert. Angewandte Ökonometrie, Skriptum [online]. Univ. Innsbruck: [cit. 2011-03-31]. Kapitola Maximum-Likelihood. Dostupné v archivu pořízeném dne 2010-11-21. (německy)

Externí odkazy

Obrázky, zvuky či videa k tématu metoda maximální věrohodnosti na Wikimedia Commons

[DupacHuskova05-1] DUPAČ, Václav; HUŠKOVÁ, Marie. Pravděpodobnost a matematická statistika. Praha: Nakladatelství Karolinum, 2005. 162 s. ISBN 80-246-0009-9.

[KohoutSkript-2] KOHOUT, Václav. Teorie odhadu, Skriptum ZCU [online]. ZČU Plzeň: 22.04.2004 [cit. 2011-03-31]. Kapitola 10. Dostupné v archivu pořízeném dne 2013-05-12.

[skriptumAT-3] STOCKER, Herbert. Angewandte Ökonometrie, Skriptum [online]. Univ. Innsbruck: [cit. 2011-03-31]. Kapitola Maximum-Likelihood. Dostupné v archivu pořízeném dne 2010-11-21. (německy)

[1]

[2]

[3]