Křížová validace

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Křížová validace je metoda zjišťování, jak moc bude model statistické analýzy ovlivňovat nezávislé vzorky dat. Tento postup je významný pro predikci neznámých vzorků po předchozí klasifikaci známých vzorků.

Princip křížové validace[editovat | editovat zdroj]

Vstupní sada dat je rozdělena na podmnožiny této sady. Jedna podmnožina slouží jako testovací sada, zbylé podmnožiny slouží jako trénovací sada. Klasifikátor natrénuje model na trénovací sadě a pomocí testovací sady testuje přesnost a výkonnost tohoto modelu. Tento proces se několikrát opakuje, pokaždé s jinou podmnožinou tvořící trénovací a testovací sadu.

Použití při aproximaci polynomem[editovat | editovat zdroj]

Z hodnot trénovací sady se musí vytvořit funkce. Aby se tato funkce dala najít, je potřeba použít některou regresní metodu pro aproximaci funkce polynomem z bodů získaných z hodnot trénovací sady. Výstupem trénovacího procesu je vektor koeficientů tohoto polynomu. Poté se měří odchylka hodnot testovací sady od polynomu. Opakováním procesu se získá soubor odchylek, které se zprůměrují a jejich výsledkem je celková cross-validační chyba modelu.

Chyba validace[editovat | editovat zdroj]

Malé množství vstupních dat nebo velké množství parametrů těchto dat způsobují tzv. přefitování polynomu. Zkreslení polynomu oproti skutečné funkci závisí na stupni polynomu, přičemž obecně neplatí, že čím vyšší je stupeň polynomu, tím lepší odhad funkce. Je proto nutné vybrat takový stupeň polynomu, kterému odpovídá nejmenší cross-validační chyba.

Speciální typy validací[editovat | editovat zdroj]

Pro k-fold validaci se vstupní sada dat rozdělí na k podmnožin a proces je k-krát opakován. Limitní případ, kdy k je rovno počtu vzorků-1 se nazývá leave-one-out.

Externí odkazy[editovat | editovat zdroj]