Trénovací data

Z Wikipedie, otevřené encyklopedie

Trénovací data jsou data (v konkrétní počítačové podobě například databáze nebo adresář se soubory), na kterých se v umělé inteligenci nebo strojovém učení odhadují parametry a/nebo struktura modelu. Trénovací data skládají ze vstupního vektoru (množiny) dat a v případě učení s učitelem také odpovídajícího vstupního vektoru dat.

Pro správné naučení inteligentního systému je obvykle potřeba dostatečně množství reprezentativních trénovacích dat, a to jak pro učení s učitelem[1], tak i učení bez učitele.[2]

Trénovací data se před zahájením učení někdy dělí na podmnožiny s různým určením:

  • Trénovací množina je sada dat, ve které algoritmus nachází určitý vztah, např. provádí jejich regresní analýzu, čímž se 'učí'.
  • Validační množina je sada dat, která se během učení používají pro odhad metaparametrů modelu ve snaze vyhnout se jeho 'přeučení' (regularizace modelu).
  • Testovací množina je sada dat, která se používají pro ověření kvality naučeného systému.

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. GENTLEMAN, R.; CAREY, V. J. Supervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 16 s. ISBN 978-0-387-77239-4. (anglicky) 
  2. GENTLEMAN, R.; CAREY, V. J. Unsupervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 21 s. ISBN 978-0-387-77239-4. (anglicky) 

Externí odkazy[editovat | editovat zdroj]

Literatura[editovat | editovat zdroj]