Regresní analýza

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (takzvané závisle proměnné, nazývané též cílová proměnná, regresand anebo vysvětlovaná proměnná) na základě znalosti jiných veličin (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných).

Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).

Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.

Matematická formulace[editovat | editovat zdroj]

Podívejme se nejdříve na případ, kdy závisle proměnná Y je skalár nebo vektor z nějakého lineárního prostoru, jako tomu bylo v našem příkladu s dobou dožití pacienta, vyjádřenou jako číselný údaj v letech. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné střední hodnoty jakožto funkce nezávisle proměnných X_1,\cdots,X_p:

\mathbb{E}(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),

přičemž \mathbb{E} je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „|“ zde můžeme číst jako „se znalostí“ a f je regresní funkce, kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých regresních parametrech čili regresních koeficientech, a tyto koeficienty se poté odhadují na základě pozorovaných dat. Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici

\mathbb{E}(Y|X_1,\cdots,X_p)=\beta^0 + \sum_{j=1}^p \beta^j X_j

s regresními koeficienty \beta^j. Tomuto důležitému zvláštnímu případu se říká lineární regrese. Vedle něj existují i regresní modely podstatně nelineární, například některé typy neuronových sítí.

Druhou základní možností je, že závisle proměnná Y je diskrétní. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. V tomto případě by Y nabývala hodnot z množiny {voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako diskriminační analýza a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:

p_k(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),

kde p_k je pravděpodobnost, že objekt patří do k-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou Pearsonova lineární diskriminační analýza, logistická regrese a metody z nich odvozené.

Externí odkazy[editovat | editovat zdroj]