Regresní analýza

Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (takzvané závisle proměnné, nazývané též cílová proměnná, regresand anebo vysvětlovaná proměnná) na základě znalosti jiných veličin (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných).

Regresní analýza dnes patří k nejvýznamnějším metodám matematické statistiky a samostatně či ve spojení s jinými metodami se používá prakticky v každé oblasti empirické a aplikované vědy.^[1]

Do statistiky zavedl pojem regrese britský učenec Francis Galton kolem roku 1880, a to jako „regres(i) k průměru.“ Tím označil fakt, že např. synové vysokých rodičů jsou sice v průměru (statisticky) vyšší než průměrná populace, zároveň ale individuálně nedosahují extrémních hodnot předchozí generace. Jako kdyby se jedinci postupně „vraceli k průměru.“ Podobně je tomu i s jinými vlastnostmi, nejen u lidí. Galtonův název se z jeho eugenických výzkumů přenosu vlastností mezi generacemi rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza. Přitom se však význam pojmu posunul, takže zde může docházet k nedorozuměním.^[2]

Matematická formulace

Podívejme se nejdříve na případ, kdy závisle proměnná $Y$ je skalár nebo vektor z nějakého lineárního prostoru, jako tomu bylo v našem příkladu s dobou dožití pacienta, vyjádřenou jako číselný údaj v letech. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné střední hodnoty jakožto funkce nezávisle proměnných $X_{1},\cdots ,X_{p}$ :

\mathbb {E} (Y|X_{1},\cdots ,X_{p})=f(X_{1},\cdots ,X_{p}),

přičemž $\mathbb {E}$ je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „ $|$ “ zde můžeme číst jako „se znalostí“ a $f$ je regresní funkce, kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých regresních parametrech čili regresních koeficientech, a tyto koeficienty se poté odhadují na základě pozorovaných dat. Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici

\mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}

s regresními koeficienty $\beta ^{j}$ . Tomuto důležitému zvláštnímu případu se říká lineární regrese. Vedle něj existují i regresní modely podstatně nelineární, například některé typy neuronových sítí.

Druhou základní možností je, že závisle proměnná $Y$ je diskrétní. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. V tomto případě by $Y$ nabývala hodnot z množiny {voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako diskriminační analýza a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:

p_{k}(Y|X_{1},\cdots ,X_{p})=f(X_{1},\cdots ,X_{p}),

kde $p_{k}$ je pravděpodobnost, že objekt patří do k-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou Pearsonova lineární diskriminační analýza, logistická regrese a metody z nich odvozené.

Příklady použití

Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).

Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.

Odkazy

Reference

↑ Hanousek – Charamza, Moderní metody, str. 161 nn.
↑ Healy, Goldstein: Regression to the mean

Literatura

J. Hanousek – P. Charamza, Moderní metody zpracování dat – matematická statistika pro každého. Praha: Grada 1992

Externí odkazy

Obrázky, zvuky či videa k tématu Regresní analýza na Wikimedia Commons
Regression Analysis SixSigmaFirst
Curve Expert (shareware) fits functions to data (limited to one dependant and one independent variable.
Online curve and surface fitting Online curve and surface fitting
TableCurve2D and TableCurve3D by Systat automates curve fitting
LMS applet
Another choice
online curve-fitting textbook

[1] Hanousek – Charamza, Moderní metody, str. 161 nn.

[2] Healy, Goldstein: Regression to the mean

[1]

[2]