Trénovací data: Porovnání verzí

Z Wikipedie, otevřené encyklopedie
Smazaný obsah Přidaný obsah
JAnDbot (diskuse | příspěvky)
m robot: přidáno {{Autoritní data}}; kosmetické úpravy
m úprava
Řádek 1: Řádek 1:
V [[Umělá inteligence|umělé inteligenci]] nebo [[strojové učení|strojovém učení]] se trénovací data skládají ze vstupního vektoru dat a odpovídajícího vstupního vektoru dat. Pro správné naučení '''inteligentního systému''' je obvykle potřeba dostatečně reprezentativní množství trénovacích dat. Inteligentní systémy jsou v podstatě funkce, které ze vstupního vektoru vypočítají výstupní vektor a podle rozdílu od správného výstupního vektoru upraví své vnitřní parametry. Tento proces ([[učení s učitelem]]<ref>{{Citace monografie | příjmení = Gentleman | jméno = R. | příjmení2 = Carey | jméno2 = V. J. | titul = Supervised Machine Learning. Bioconductor Case Studies | vydavatel = Springer| místo = New York | rok = 2008| počet stran = 16 | isbn = 978-0-387-77239-4 | jazyk = en}}</ref>) se opakuje, dokud není systém dostatečně naučen. Trénovací data se dle způsobu užití dělí do tří skupin:
{{neověřeno}}
'''Trénovací data''' (trénovací množina) je v oblasti [[strojové učení|strojového učení]] sada dat, ve které algoritmus nachází určitý vztah, čímž se 'učí'.


'''Trénovací množina''' je sada dat, ve které algoritmus nachází určitý vztah, tj. provádí jejich ([[Regresní analýza|regresní analýzu]]), čímž se 'učí'.
V [[Umělá inteligence|umělé inteligenci]] nebo [[strojové učení|strojovém učení]] se trénovací data skládají ze vstupního vektoru dat a odpovídajícího výstupu, při použití [[učení s učitelem]] se z nich vytváří znalostní databáze. Pro správné naučení inteligentního systému je obvykle potřeba velké množství trénovacích dat. Počet dat by měl být mnohem větší než počet klasifikátorů vstupního vektoru.


'''Validační množina''' je sada dat, která se používají pro případnou úpravu parametrů učení ve snaze vyhnout se jeho 'přeučení'.
'''Testovací data''' se používají pro ověření kvality naučeného systému. Měla by být odlišná od trénovacích dat. Systém je správně naučený tehdy, jestliže se shodnou úspěšností vyhodnocuje trénovací data i testovací data. Pokud má vyhodnocení trénovací množiny výrazně vyšší úspěšnost, je systém přeučený.


'''Testovací množina''' je sada dat, která se používají pro ověření kvality naučeného systému. Měla by být odlišná od trénovací resp. validační množiny. Systém je správně naučený tehdy, jestliže se shodnou úspěšností vyhodnocuje trénovací množinu i testovací množinu. Pokud má vyhodnocení trénovací množiny výrazně vyšší úspěšnost, je systém přeučený.
'''Validační data''' se používají pro úpravu parametrů systému ve snaze vyhnout se jeho přeučení. Používají se mezi procesem učení a testování.


Provnejte s [[učení bez učitele|učením bez učitele]]<ref>{{Citace monografie | příjmení = Gentleman | jméno = R. | příjmení2 = Carey | jméno2 = V. J. | titul = Unsupervised Machine Learning. Bioconductor Case Studies | vydavatel = Springer| místo = New York | rok = 2008| počet stran = 21 | isbn = 978-0-387-77239-4 | jazyk = en}}</ref>.
[[Regresní analýza]] byla jedna z prvních metod využívající trénovací data pro nalezení vztahu a následného předpovídání dalšího vývoje dat. V '''inteligentních systémech''' tvoří trénovací a testovací data klíčovou součást. Inteligentní systémy jsou v podstatě funkce, které ze vstupního vektoru vypočítají výstupní hodnotu a podle rozdílu od správného výstupu upraví své vnitřní parametry. Tento proces se opakuje, dokud není systém dostatečně naučen.


== Odkazy ==
== Literatura ==
* {{Citace monografie
| příjmení1 = Křivan
| jméno1 = Miloš
| titul = Umělé neuronové sítě
| url = https://www.intelligentsoftware.eu/upload/pdf/Scriptum.pdf
| vydavatel = Nakladatelství Oeconomica, Vysoká škola ekonomická v Praze
| počet_stran = 77
| isbn = 978-80-245-2420-7
}}


=== Reference ===
== Reference ==
<references/>
{{Překlad|en|Test set|767721274}}


{{Pahýl}}
{{Pahýl}}

Verze z 12. 8. 2022, 16:45

V umělé inteligenci nebo strojovém učení se trénovací data skládají ze vstupního vektoru dat a odpovídajícího vstupního vektoru dat. Pro správné naučení inteligentního systému je obvykle potřeba dostatečně reprezentativní množství trénovacích dat. Inteligentní systémy jsou v podstatě funkce, které ze vstupního vektoru vypočítají výstupní vektor a podle rozdílu od správného výstupního vektoru upraví své vnitřní parametry. Tento proces (učení s učitelem[1]) se opakuje, dokud není systém dostatečně naučen. Trénovací data se dle způsobu užití dělí do tří skupin:

Trénovací množina je sada dat, ve které algoritmus nachází určitý vztah, tj. provádí jejich (regresní analýzu), čímž se 'učí'.

Validační množina je sada dat, která se používají pro případnou úpravu parametrů učení ve snaze vyhnout se jeho 'přeučení'.

Testovací množina je sada dat, která se používají pro ověření kvality naučeného systému. Měla by být odlišná od trénovací resp. validační množiny. Systém je správně naučený tehdy, jestliže se shodnou úspěšností vyhodnocuje trénovací množinu i testovací množinu. Pokud má vyhodnocení trénovací množiny výrazně vyšší úspěšnost, je systém přeučený.

Provnejte s učením bez učitele[2].

Literatura

Reference

  1. GENTLEMAN, R.; CAREY, V. J. Supervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 16 s. ISBN 978-0-387-77239-4. (anglicky) 
  2. GENTLEMAN, R.; CAREY, V. J. Unsupervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 21 s. ISBN 978-0-387-77239-4. (anglicky)