Základní model

Základní model (anglicky foundation model nebo base model) je velký model umělé inteligence (AI) trénovaný na obrovském množství dat, který lze pak přizpůsobit široké škále úkolů.^[1]^[2] Často vzniká metodou samoučení (self-supervised learning) nebo částečného učení s učitelem (semi-supervised learning).^[3] Základní modely znamenají zásadní změnu způsobu, jakým se budují systémy umělé inteligence. Pohánějí například prominentní chatboty a další uživatelsky orientované aplikace umělé inteligence. Termín základní model popularizovalo výzkumné středisko Center for Research on Foundation Models (CRFM) Stanfordského institutu pro umělou inteligenci zaměřenou na člověka (Stanford Institute for Human-Centered Artificial Intelligence's, HAI).

Prvními příklady základních modelů byly předtrénované velké jazykové modely (Large language models, LLM) jako BERT společnosti Google a různé modely nadace OpenAI, zejména její řada modelů GPT-x, jež pohánějí mimo jiné chatbot ChatGPT. Takovéto obecné modely lze pak upravit pro specifické úlohy a/nebo oblasti, dokonce i když využívají posloupnosti jiných typů znaků, například lékařské kódy.^[4]

Dále byly vytvořeny základní modely vizuálních a multimodálních dat například DALL-E, Flamingo,^[5] Florence a NOOR. Vizuální základní modely (Visual foundation models, VFM) byly pak zkombinovány s textovými LLM za účelem vytvoření sofistikovaných modelů pro složitější úkoly kombinující oba typy dat.^[6]^[7]

Definice

Stanfordské výzkumné středisko Center for Research on Foundation Models (CRFM) zavedlo termín „foundation model“ (základní model) v srpnu 2021 a předběžně mělo na mysli „jakýkoli model, který je trénován na rozsáhlých datech (obecně s využitím samoučení) a který lze přizpůsobit (např. doladit) pro širokou škálu navazujících úloh“. To bylo založeno na jejich pozorování, že existující překrývající se termíny nejsou adekvátní. Pojen „(velký) jazykový model“ je příliš úzký, protože nejde pouze o jazyk; „model založený na samoučení“ je příliš specifický co do metody vzniku takového modelu; a „předtrénovaný model“ zní, jako by to podstatné nastávalo až po „předtrénování“. Po zvážení mnoha možných označení se stanfordští vědci shodli na „základním modelu“, aby zdůraznili zamýšlenou funkci (tj. možnost dalšího rozvoje) spíše než modalitu, architekturu nebo implementaci.

Poznamenávají také, že sám koncept není vlastně nový, protože se zakládá na hlubokém učení neuronových sítí a samoučení, ale tvrdí, že rozsah, ve kterém se oblast v posledních letech [tj. kolem roku 2020] rozvinula, a rostoucí potenciál modelů sloužit pro nejrůznější účely si zasluhují nové označení.

Základní model je „paradigma pro budování systémů umělé inteligence“, ve kterém lze model trénovaný na velkém množství dat bez nezávisle proměnné (unlabeled data) přizpůsobit mnoha aplikacím.^[8] Základní modely jsou „navrženy tak, aby je bylo možné přizpůsobit (např. doladit) pro různé navazující úlohy, poněvadž jsou předtrénovány na široké škále dat“.^[9]

Klíčovými charakteristikami základních modelů jsou emergence a homogenizace. Vzhledem k tomu, že trénovací data nejsou popsána lidmi, model spíše emerguje, než aby byl explicitně popsaný. Mohou se u něj objevit vlastnosti, které nebyly předpokládány. Například model trénovaný na velké jazykové datové sadě se může naučit psát vlastní příběhy nebo provádět aritmetické operace, aniž by k tomu byl výslovně naprogramován.^[10] Homogenizace znamená, že stejná metoda se používá v mnoha doménách, což umožňuje výrazný pokrok, ale zároveň se objevuje možnost selhání napříč různými aplikacemi následkem jediného nedostatku základního modelu.

Personalizace základních modelů

Vzhledem k tomu, že základní modely jsou trénovány na obecném datovém souboru, nejsou bez dalšího schopny zpracovat specifické „personalizované“ výstupy, které by uživatele mohly zajímat. Byla navržena řada metod k rozšíření základního modelu o takové specifické položky bez přeškolování celého modelu. Například základní model vidění a jazyka (CLIP) lze přizpůsobit přidáním nového konceptu do jeho slovní zásoby.^[11] Pro generování obrázků na základě textových vstupů lze podobně použít přístup nazvaný textová inverze (textual inversion), aby se systém naučil novému konceptu, který lze později generovat ve spojení s koncepty, jež základní model již zná.

Odkazy

V tomto článku byl použit překlad textu z článku Foundation models na anglické Wikipedii.

Reference

↑ Introducing the Center for Research on Foundation Models (CRFM). Stanford HAI [online]. [cit. 2023-05-26]. Dostupné online. (anglicky)
↑ What Are Foundation Models and How Do They Work? [online]. KDNuggets [cit. 2023-05-26]. Dostupné online. (anglicky) ^{[nedostupný zdroj]}
↑ GOLED, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine [online]. 2021-05-07 [cit. 2023-05-26]. Dostupné online. (anglicky)
↑ STEINBERG, Ethan; JUNG, Ken; FRIES, Jason A. Language models are an effective representation learning technique for electronic health record data. Journal of Biomedical Informatics. 2021-01, roč. 113, s. 103637. PMID: 33290879 PMCID: PMC7863633. Dostupné online [cit. 2023-05-26]. ISSN 1532-0480. DOI 10.1016/j.jbi.2020.103637. PMID 33290879.
↑ Tackling multiple tasks with a single visual language model. www.deepmind.com [online]. [cit. 2023-05-26]. Dostupné online. (anglicky)
↑ Visual Foundation Models for Medical Image Analysis. NVIDIA Technical Blog [online]. 2023-06-20 [cit. 2023-08-15]. Dostupné online. (anglicky)
↑ Visual Foundation Model [online]. [cit. 2023-08-15]. Dostupné online. (anglicky)
↑ What are foundation models?. IBM Research Blog [online]. 2021-02-09 [cit. 2023-05-26]. Dostupné online. (anglicky)
↑ Chybí název periodika! PMID 35655064. arXiv 2110.14378.
↑ Huge “foundation models” are turbo-charging AI progress. The Economist. Dostupné online [cit. 2023-05-26]. ISSN 0013-0613.
↑ doi.org. Dostupné online. ISBN 978-3-031-20043-4. arXiv 2204.01694.

[1] Introducing the Center for Research on Foundation Models (CRFM). Stanford HAI [online]. [cit. 2023-05-26]. Dostupné online. (anglicky)

[2] What Are Foundation Models and How Do They Work? [online]. KDNuggets [cit. 2023-05-26]. Dostupné online. (anglicky) ^{[nedostupný zdroj]}

[3] GOLED, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine [online]. 2021-05-07 [cit. 2023-05-26]. Dostupné online. (anglicky)

[4] STEINBERG, Ethan; JUNG, Ken; FRIES, Jason A. Language models are an effective representation learning technique for electronic health record data. Journal of Biomedical Informatics. 2021-01, roč. 113, s. 103637. PMID: 33290879 PMCID: PMC7863633. Dostupné online [cit. 2023-05-26]. ISSN 1532-0480. DOI 10.1016/j.jbi.2020.103637. PMID 33290879.

[5] Tackling multiple tasks with a single visual language model. www.deepmind.com [online]. [cit. 2023-05-26]. Dostupné online. (anglicky)

[6] Visual Foundation Models for Medical Image Analysis. NVIDIA Technical Blog [online]. 2023-06-20 [cit. 2023-08-15]. Dostupné online. (anglicky)

[7] Visual Foundation Model [online]. [cit. 2023-08-15]. Dostupné online. (anglicky)

[8] What are foundation models?. IBM Research Blog [online]. 2021-02-09 [cit. 2023-05-26]. Dostupné online. (anglicky)

[9] Chybí název periodika! PMID 35655064. arXiv 2110.14378.

[10] Huge “foundation models” are turbo-charging AI progress. The Economist. Dostupné online [cit. 2023-05-26]. ISSN 0013-0613.

[11] doi.org. Dostupné online. ISBN 978-3-031-20043-4. arXiv 2204.01694.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]