Výběr rysů

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Výběr rysů, též selekce rysů, výběr proměnných nebo výběr atributů, je ve strojovém učení a statistice proces výběru podmnožiny relevantních rysů (též slangově fíčur), které se použijí pro konstrukci modelu. Klíčový předpoklad pro užití této metody je, že data obsahují mnoho redundantních nebo nerelevantních atributů. Redundantní jsou takové, které nenesou víc informace než aktuálně vybrané atributy. Nerelevantní atributy neobsahují žádnou užitečnou informaci. Techniky výběru rysů jsou částí obecnějších technik extrakce rysů, která tvoří nové atributy jako funkce stávajících atributů, kdežto výběr rysů vybírá podmnožinu ze stávajících atributů. Výběr rysů se používá v těch případech a doménách, kde je mnoho atributů a k nim relativně málo příkladů (neboli datových bodů).

Metody

Pro výběr rysů (příznaků) se používá několik metod, které se dají zařadit do tří skupin.

Wrapper (obalovací) metody[editovat | editovat zdroj]

Obalovací se jmenují proto, že algoritmus pro výběr příznaků „obaluje“ vlastní použití příznaků. Způsob, jakým se příznaky používají (například ke klasifikaci) funguje jako černá skříňka, ze které nás zajímají jen výsledky. V praxi to funguje tak, že vybereme nějakou množinu příznaků, a tu ohodnotíme hodnotící funkcí. Například, v případě klasifikace, necháme klasifikaci proběhnout a vyhodnotíme její výsledek. Toto se opakuje pro různé množiny příznaků, a výsledky pro jednotlivé množiny příznaků se porovnávají [1].

Filtrační metody[editovat | editovat zdroj]

Filtrační metody vybírají příznaky podle dat, nezávisle na tom, k čemu se příznaky použijí. Název „filtr“ se používá proto, že příznaky se filtrují ještě před vlastním použitím, během předpřípravy dat. Výpočetně jsou méně náročné, než obalovací metody. Ale jejich hlavní nevýhodou je, že neberou v potaz to, jak výběr příznaků ovlivní výsledky.

Embedded metody[editovat | editovat zdroj]

Embedded metody se snaží kombinovat obalovací a filtrační metody, a tím využít výhody obou.

Terminologie[editovat | editovat zdroj]

Používá se i výběr příznaků, ale to co je popsáno tam (více-mémě ve významu symptom) se sem příliš nehodí.

Reference[editovat | editovat zdroj]

  1. KOHAVI Ron, George H. John, (1997) Wrappers for feature subset selection


V tomto článku byl použit překlad textu z článku Feature selection na anglické Wikipedii.