Přeskočit na obsah

Wikipedista:Lenoli/Pískoviště

Z Wikipedie, otevřené encyklopedie

GPT-3, v anglickém jazyce známý také jako third generation Generative Pre-trained Transformer je model strojového učení neuronové sítě.[1] Jedná se o autoregresivní jazykový model, který je schopen hlubokého učení textu, trénovaný za pomocí internetových dat. Model, podobně jako lidský mozek, si zapamatovává data, ze kterých je následně schopen produkovat nejen nový text, ale také generovat kód, příběhy i básně.[2][3]

Produkt představila v květnu 2020 společnost OpenAI jakožto nástupce předchozího jazykového modelu s názvem GPT-2, který nebyl schopný obsáhnout takové množství dat a produkovat kvalitní texty.[4] Výzkumná laboratoř OpenAI se sídlem v americkém San Franciscu předvedla v červenci roku 2020 úspěšné beta testování modelu.[5] GPT-3 model na rozdíl od svého předchůdce produkuje texty, ze kterých je mnohem těžší rozpoznat, zda jej psal člověk či tato umělá inteligence.[2]

Přístup k základnímu modelu má pouze společnost Microsoft, na jejíž používání získala v září 2020 licenční smlouvu. Všichni ostatní uživatelé mohou používat alespoň veřejné rozhraní API.[6]

Historie GPT

[editovat | editovat zdroj]

V roce 2015 byl projekt GPT-3 vyvíjen pod křídly non-profitové organizace OpenAI. Cílem projektu bylo vytvořit a popularizovat „přátelskou umělou inteligenci“ schopnou přinést užitek lidstvu jako celku. První verze GPT byla vydána v roce 2017 a obsahovala 117 milionů parametrů. Druhá verze GPT-2, vyšla v roce 2019 a obsahovala 1,5 miliardy parametrů. [7]

Nejnovější verze, GPT-3, své předchůdce více než stonásobně překonala. Model byl trénován na 175 miliardách parametrů. Jedná se o mnohem robustnější verzi, která je schopna lépe zpracovávat data v užších specializacích. Verze GPT i GPT-2 byl kritizovány za nedostatečný výkon v hudební oblasti a za špatné vyprávění příběhů. GPT-3 je v těchto ohledech díky masivní datové základně mnohonásobně více výkonný model, zvládá úkony jako odpovídání na otázky, psaní esejí, shrnutí textu, překlad textu a také generování zdrojového kódu.[8]

Trénovací data

[editovat | editovat zdroj]

K trénování modelu byla v nejvyšší míře použita datová sada Common Crawl2, která obsahuje téměř miliardu slov. Jedná se o nezpracovaná data webových stránek, extrahovaná metadata a textové extrakce. Takováto velikost je k trénování modelu dostačující, nicméně nefiltrovaná nebo málo filtrovaná verze datasetu by mohla vést k nekvalitním výstupům.

Ke zlepšení kvality datové sady vedly 3 kroky, konkrétně:

  • Filtrování stažené verze Common Crawl na základě podobností s řadou vysoce kvalitních referenčních dat.
  • Byla provedena Fuzzy deduplikace na úrovni dokumentů v rámci datasetů i napříč nimi, aby bylo zabráněno redundanci a došlo k zachování integrity.
  • CommonCrawl dataset byl rozšířen o další kvalitní referenční korpusy, což vedlo ke zvýšení rozmanitosti modelu.

Konkrétně se jednalo o rozšíření datasety WebText2, který zahrnuje veškeré příspěvky na Redditu datované od 2005-2020. Dále Books1 a Books2, datasety internetových knižních korporací. V poslední řadě a v nejmenším rozsahu byl použit dataset anglických článku z Wikipedie.

Použité datové sady:
Dataset Tokeny Váha Uběhlé epochy při trénování 300 mld tokenů
Common Crawl2 410 mld 60% 0.44
WebText2 19 mld 22% 2.9
Books1 12 mld 8% 1.9
Books2 55 mld 8% 0.43
Wikipedia 3 mld 3% 3.4

"Váha" se vztahuje k podílu příkladů během tréninku, které jsou vybrány z daného souboru dat. Tento podíl záměrně není úměrný velikosti datasetu. Některé datové sady se tak během trénování objeví až 3.4x , zatímco jiné dokonce méně než jednou.[4]

Jak GPT-3 funguje

[editovat | editovat zdroj]

GPT-3 je řada modelů jazykové predikce. To znamená, že GPT-3 je postaven na modelu strojového učení neuronové sítě, který dokáže přijmout text jako vstup a transformovat jej na to, co předpovídá jako nejužitečnější výsledek. Toho je dosaženo trénováním systému na rozsáhlém množství internetových textů. GPT-3 se zaměřuje na výstupu v podobě textu, čehož je s vysokou úspěšností schopen na základě toho, že byl předem vycvičen na obrovském množství textu. Když uživatel zadá vstupní text, systém analyzuje jazyk a pomocí prediktoru vytvoří nejpravděpodobněji nejužitečnější výstup.[9]

Architektura GPT-3

[editovat | editovat zdroj]

GPT-3 není jeden model, ale rodina modelů. Každý model v rodině má jiný počet trénovatelných parametrů.

Rodina modelů OpenAI GPT-3 je ve skutečnosti založena na stejné architektuře modelu GPT-2 založené na transformátorech, včetně upravené inicializace, pre-normalizace a reverzní tokenizace, s tím rozdílem, že používá střídavě husté a rozptýlené vzory pozornosti.

Největší verze GPT-3 175B neboli "GPT-3" má 175 miliard parametrů, 96 vrstev pozornosti a velikost dávky 3,2 M.

Řada modelů GPT-3 je stejně jako většina technologií svazována jistými limitacemi.

Uživatelé identifikovali zejména následující nedostatky modelu:

  • Výstupy mohou postrádat sémantickou koherenci, což vede k tomu, že text je psaný nesrozumitelně a v nesouladu s pravidly správného psaní. Se zvyšující se délkou textu je výstup čím dál více náchylný k tomuto jevu.
  • Jeho výstupech jsou obsaženy všechny chyby, které se mohou vyskytovat v jeho trénovacích datech. V praxi to znamená, že výstupy mohou obsahovat diskriminaci, a to například rasovou, genderovou nebo v otázkách víry.
  • Nelze zaručit, že jeho výstupy budou vždy tvrzení odpovídající reálné skutečnosti, tedy pravdivé výstupy.[10]

Model nefunguje na principu neustálého učení. Byl předem vycvičen, což znamená, že nemá trvalou dlouhodobou paměť, která by se učila z každé interakce.

Kromě výše zmíněních limitací trpí GPT-3 stejnými problémy jako všechny neuronové sítě: nemá dostatečné schopnosti vysvětlit a interpretovat, z jakého důvodu vedou dané vstupy k daným výstupům.[9]

Použití v praxi

[editovat | editovat zdroj]

V aplikaci slouží GPT-3 zejména obchodníkům a majitelům různých firem. Produkt je totiž schopný generovat text pro blogy, názvy pro produkty, atp. a to podobně na základě slovní zásoby zadané uživatelem. Aplikace generuje řadu možných textových výsledků, ze kterých si poté uživatel sám vybírá, co se mu líbí nejvíce.[11]

GPT-3 se používá v Jasper.ai, jako generátoru obsahu, který má pomáhat obchodníkům a copyeditorům. Aplikace se používá k tomu, aby pomohl podnikům rozšiřovat jejich obsahové strategie, pomáhal nerodilým mluvčím efektivněji sdělovat jejich myšlenky a umožňoval lidem rozvíjet každodenní návyky psaní. Nové rozšíření prohlížeče Jasper vydané pro Chrome umožňuje uživatelům vzít si s sebou generativní umělou inteligenci na celou řadu webových stránek a platforem obsahu, které používají.[12]

Spadá stejně jako samotný model GPT-3 pod křídla společnosti OpenAI. Jedná se o model, který je schopen odpovídat na otázky dialogovým, konverzačním způsobem. Model umí díky svému formátu odpovídat na otázky, přiznávat své chyby a zpochybňovat nesprávné předpoklady. Je také postaven tak, aby odmítal nevhodné požadavky.[13]

GPT-3 bude integrován do Microsoft Power Apps, platformy pro vývoj low code aplikací, která umožní všem, od lidí s malými nebo žádnými zkušenostmi s kódováním až po profesionální vývojáře s hlubokými znalostmi programování, vytvářet aplikace pro zlepšení produktivity nebo podnikových procesů.[14]

Excelformulabot

[editovat | editovat zdroj]

S využitím GPT-3 umožňuje převádět textové pokyny do vzorců pro aplikace Excel nebo Google Sheets nebo naopak vysvětlit již existující vzorce a jejich dekompozici. Textové pokyny lze převést i do VBA kódu. [15]

Codex syntetizuje specifický kód pro zpracování dotazů SQL pomocí modelu GPT-3 Codex od společnosti OpenAI. Uživatelé si vygenerovaný kód přizpůsobí pomocí instrukcí v přirozeném jazyce. Laičtí uživatelé mohou například v přirozeném jazyce popsat výstup, který se má generovat a který jim pomůže při ladění dotazů SQL.[16]

  1. BROWN, Tom B.; MANN, Benjamin; RYDER, Nick. Language Models are Few-Shot Learners. arXiv:2005.14165 [cs]. 2020-07-22. ArXiv: 2005.14165. Dostupné online [cit. 2022-12-11]. 
  2. a b OpenAI GPT-3: Everything You Need to Know. Springboard Blog [online]. 2021-11-01 [cit. 2022-12-11]. Dostupné online. (anglicky) 
  3. WEINBERG, Justin. Philosophers On GPT-3 (updated with replies by GPT-3). Daily Nous [online]. 2020-07-30 [cit. 2022-12-11]. Dostupné online. (anglicky) 
  4. a b BROWN, Tom B.; MANN, Benjamin; RYDER, Nick. Language Models are Few-Shot Learners. arXiv:2005.14165 [cs]. 2020-07-22. ArXiv: 2005.14165. Dostupné online [cit. 2022-12-11]. DOI 10.48550/arxiv.2005.14165. 
  5. SHEAD, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  6. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  7. GPT-2 (GPT2) vs. GPT-3 (GPT3): The OpenAI Showdown - DZone. dzone.com [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  8. What is GPT-3? Everything You Need to Know. Enterprise AI [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  9. a b What is GPT-3? Everything You Need to Know. Enterprise AI [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  10. DALE, Robert. GPT-3: What’s it good for?. Natural Language Engineering. 2020-12-15, roč. 27, čís. 1, s. 113–118. Dostupné online [cit. 2022-12-11]. ISSN 1351-3249. DOI 10.1017/s1351324920000601. 
  11. WILHELM, Alex. Writing helper Copy.ai raises $2.9M in a round led by Craft Ventures [online]. 2021-03-17 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  12. Jasper Announces $125M Series A Funding Round, Bringing Total Valuation to $1.5B and Launches New Browser Extension. www.jasper.ai [online]. [cit. 2022-12-13]. Dostupné online. 
  13. ChatGPT: Optimizing Language Models for Dialogue. OpenAI [online]. 2022-11-30 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  14. Microsoft announced its first customer product features powered by GPT-3 and @Azure.. The AI Blog [online]. 2021-05-25 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  15. Google Sheets - Excelformulabot.com. excelformulabot [online]. [cit. 2022-12-13]. Dostupné online. (anglicky) 
  16. CodexDB - SQL Processing Powered by GPT-3. CodexDB - SQL Processing Powered by GPT-3 [online]. [cit. 2022-12-13]. Dostupné online. (anglicky)