Polynomická regrese

Ukázka aproximace zadaných bodů polynomem libovolného řádu.

Polynomická či polynomiální regrese představuje proložení (aproximaci) zadaných hodnot polynomem. Koeficienty hledaného polynomu jsou metodou nejmenších čtverců vypočteny tak, aby součet druhých mocnin odchylek původních hodnot od získaného polynomu byl minimální.^[1]

Odvození[editovat | editovat zdroj]

Cílem je proložit hodnotami $x_{i},\,y_{i}$ , $i=1,\ldots ,n$ polynom $k$ -tého stupně $P_{k}(x)=p_{0}+p_{1}x+\ldots +p_{k}x^{k}$ . Koeficienty $p_{0},\ldots ,p_{k}$ jsou přitom voleny tak, aby součet druhých mocnin odchylek

e_{i}\equiv y_{i}-P_{k}(x_{i})

byl minimální, tj.

F=\sum _{i=1}^{n}{e_{i}^{2}}\longrightarrow \min .

Úloha vede na problém nejmenších čtverců.

Problém nejmenších čtverců[editovat | editovat zdroj]

Dosazením hodnot $x_{i},\,y_{i}$ do polynomiálního modelu $y=P_{k}(x)$ přímo dostaneme aproximační problém. Z definice odchylky $e_{i}$ zřejmě platí $y_{i}=P_{k}(x_{i})+e_{i}$ . (Uvědomme si, že $e_{i}$ tak vlastně reprezentuje chybu vzniklou při měření veličiny $y_{i}$ přičemž předpokládáme, že veličiny $x_{i}$ jsou známy přesně.) V maticovém zápisu

\mathbf {A} \mathbf {x} =\mathbf {b} +\mathbf {e} ,

kde

\mathbf {A} =\left[{\begin{matrix}x_{1}^{k}&\cdots &x_{1}&1\\x_{2}^{k}&\cdots &x_{2}&1\\\vdots &&\vdots &\vdots \\x_{n}^{k}&\cdots &x_{n}&1\end{matrix}}\right],\quad \mathbf {x} =\left[{\begin{matrix}p_{k}\\\vdots \\p_{1}\\p_{0}\end{matrix}}\right],\quad \mathbf {b} =\left[{\begin{matrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{matrix}}\right],\quad \mathbf {e} =\left[{\begin{matrix}e_{1}\\e_{2}\\\vdots \\e_{n}\end{matrix}}\right],

$p_{0},p_{1},\ldots ,p_{k}$ jsou neznámé koeficienty hledaného polynomu a cílem je dosáhnout takového řešení, aby norma vektoru $\mathbf {e}$ byla minimální. Úloha se řeší metodou nejmenších čtverců.

Minimum funkcionálu $F$ [editovat | editovat zdroj]

Minimum (pozitivně semidefinitního) funkcionálu $F$ můžeme hledat klasicky pomocí derivací. Protože veličiny $x_{i}$ , $y_{i}$ jsou předem známy, odchylka $e_{i}$ je funkcí koeficientů polynomu $P_{k}$ , tj. $e_{i}=e_{i}(p_{0},\ldots ,p_{k})$ . Minimalizace součtu kvadrátů odchylek $e_{i}$ vede na hledání minima funkcionálu

F(p_{0},\ldots ,p_{k})\equiv \sum _{i=1}^{n}\ e_{i}^{2}(p_{0},\ldots ,p_{k})=\sum _{i=1}^{n}\ (y_{i}-\sum _{j=0}^{k}p_{j}x_{i}^{j})^{2}.

Funkcionál tvoří součet druhých mocnin, je tedy zřejmě nezáporný a nemůže obsahovat žádná lokální maxima ani sedlové body. Bod splňující podmínky

{\frac {\partial F}{\partial {p_{j}}}}=0,\qquad j=0,\ldots ,k.

je tedy vždy lokálním minimem, které je zároveň minimem globálním. Vyjádříme-li jednotlivé parciální derivace, dostáváme soustavu lineárních algebraických rovnic, kterou můžeme maticově zapsat ve tvaru

\mathbf {A} ^{T}\mathbf {A} \mathbf {x} =\left[{\begin{matrix}\sum {x_{i}^{2k}}&\cdots &\sum {x_{i}^{k+1}}&\sum {x_{i}^{k}}\\\vdots &\ddots &\vdots &\vdots \\\sum {x_{i}^{k+1}}&\cdots &\sum {x_{i}^{2}}&\sum {x_{i}}\\\sum {x_{i}^{k}}&\cdots &\sum {x_{i}}&n\end{matrix}}\right]\left[{\begin{matrix}p_{k}\\\vdots \\p_{1}\\p_{0}\end{matrix}}\right]=\left[{\begin{matrix}\sum {y_{i}x_{i}^{k}}\\\vdots \\\sum {y_{i}x_{i}}\\\sum {y_{i}}\end{matrix}}\right]=\mathbf {A} ^{T}\mathbf {b} .

Řešením této soustavy jsou hledané koeficienty $p_{j}$ . Pokud má matice $\mathbf {A}$ lineárně nezávislé sloupce, koeficienty polynomu jsou dány jednoznačně a lze je formálně vypočítat podle vztahu

\mathbf {x} =\left(\mathbf {A} ^{T}\mathbf {A} \right)^{-1}\mathbf {A} ^{T}\mathbf {b} .

Jak vidíme, soustava získaná z parciálních derivací funkcionálu $F$ není nic jiného než soustava normálních rovnic odpovídající problému nejmenších čtverců z předchozího odstavce. Poznamenejme, že se úloha zpravidla (z numerických důvodů) neřeší pomocí soustavy normálních rovnic $\mathbf {A} ^{T}\mathbf {A} \mathbf {x} =\mathbf {A} ^{T}\mathbf {b}$ , ale například QR faktorizací rozšířené matice $[\mathbf {b} ,\mathbf {A} ]$ původního problému nejmenších čtverců.

Kvadratická regrese[editovat | editovat zdroj]

Kvadratická regrese je případ polynomické regrese, kdy stupeň polynomu $P_{k}$ je roven dvěma. Jako taková je tedy speciálním případem lineární regrese. Soubor daných hodnot je proložen (aproximován) kvadratickou funkcí (parabolou). Koeficienty polynomu (paraboly) jsou opět vypočteny metodou nejmenších čtverců.

Odvození problému nejmenších čtverců i nalezení minima funkcionálu je zcela analogické předchozímu případu. Místo obecným polynomem $P_{k}(x)$ prokládáme data parabolou, tedy polynomem druhého řádu $P_{2}(x)=ax^{2}+bx+c$ . Součet čtverců odchylek $e_{i}=y_{i}-P_{2}(x_{i})$ (funkcionál $F$ ) závisí na parametrech $a,\,b,\,c$ , konkrétně