Stable Diffusion

Z Wikipedie, otevřené encyklopedie
Stable Diffusion
VývojářStability AI
První vydání22. srpna 2022
Aktuální verzeSDXL 1.0 (model)[1]
Operační systémVšechny, které podporují jádra CUDA
Vyvíjeno vPython
LicenceCreative ML OpenRAIL-M
Webstability.ai
Některá data mohou pocházet z datové položky.

Stable Diffusion je model hlubokého učení převádějící text na obraz, který byl uveden na trh v roce 2022 na základě techniky difúze. Je primárně určen k generování podrobných obrázků na základě popisů textu, ale lze jej také použít k dalším úkolům, jako je inpainting, outpainting a generování překladů obrazu k textovému zadání. Byl vyvinut výzkumníky z CompVis Group na Ludwig Maximilian University v Mnichově a Runway, s výpočetním příspěvkem od Stability AI a trénovacími daty poskytnutými neziskovými organizacemi.[2][3][4]

Stable Diffusion, vývojový krok v oblasti generativního umělého modelování, reprezentuje latentní difúzní model postavený na hluboké neuronové síti. Tento inovativní model byl navržen s důrazem na otevřený zdrojový kód[5], umožňující komunitě vývojářů přístup k jeho váhám kódu a modelu. Co ještě fascinující, je jeho schopnost provozu na široké škále spotřebního hardwaru, přičemž minimální požadavek je grafická karta s alespoň 4 GB VRAM (virtuální paměti).

Odklon od předchozích proprietárních modelů, jako jsou DALL-E a Midjourney, je patrný v tom, že Stable Diffusion nabízí možnost využívat jej na lokálním hardwaru bez nutnosti spoléhat se na cloudové služby. Tímto způsobem se dále posiluje nezávislost uživatelů a umožňuje větší flexibilitu při využívání této pokročilé technologie.[6]

Rozvoj[editovat | editovat zdroj]

Vývoj Stable Diffusion představuje spolupráci a finanční podporu od začínající společnosti Stability AI[7][8] Technickou licenci na tento model poskytla renomovaná skupina CompVis na Univerzitě Ludwiga Maximiliana v Mnichově. Vedoucími postavami tohoto projektu byli Patrick Esser z Runway a Robin Rombach z CompVis, kteří předtím vytvořili architekturu latentní difúze, jež je v jádru modelu Stable Diffusion.

Stability AI uznává podporu EleutherAI a LAION, německé neziskové organizace, které sestavily klíčovou datovou sadu pro trénování modelu.

V říjnu 2022 získala Stability AI 101 miliónů USD (amerických dolarů) v kole vedeném společností Lightspeed Venture Partners a Coatue Management.[9]

Technologie[editovat | editovat zdroj]

Schéma latentní difúzní architektury používané Stable Diffusion
Proces odšumování používaný Stable Diffusion. Model generuje obrázky opakovaným odšumováním náhodného šumu, dokud není dosaženo nakonfigurovaného počtu kroků, vedený textovým kodérem CLIP předem natrénovaným na koncepty spolu s mechanismem pozornosti, což vede k požadovanému snímku zobrazujícímu reprezentaci natrénovaného konceptu.

Architektura[editovat | editovat zdroj]

Stable Diffusion využívá pokročilý difúzní model nazývaný Model latentní difúze (LDM), který vyvinula skupina CompVis na LMU Mnichov.[10] Tato nová generace difúzních modelů, představená v roce 2015, je zaměřena na trénování s cílem eliminovat postupné aplikace Gaussova šumu na trénovacích snímcích. Tento postup lze přirovnat k sekvenci odšumovacích autokodérů.

Stable Diffusion se skládá ze tří klíčových částí: variačního autoenkodéru (VAE), U-Net a volitelného textového kodéru.[11] V první fázi kodér VAE komprimuje obraz z prostoru pixelů do menšího latentního prostoru s nižším rozměrem, což umožňuje zachytit podstatný sémantický význam obrazu. Během dopředné difúze je na tuto komprimovanou latentní reprezentaci iterativně aplikován Gaussovský šum.

Blok U-Net, složený z páteře ResNet, následně odšumuje výstup z dopředné difúze, přivádějící latentní reprezentaci zpět do původního stavu. Nakonec dekodér VAE generuje finální obraz tím, že převede reprezentaci zpět do původního prostoru pixelů[12]. Tímto sofistikovaným procesem je dosaženo Stable Diffusion, což přináší vylepšenou kvalitu a sémantickou interpretaci obrazu.

Proces odšumování je flexibilně podmíněn pomocí různých modalit, včetně textu, obrázků a dalších. Zakódovaná data pro podmíněné odšumování jsou vystavena síti U prostřednictvím mechanismu křížové pozornosti. Při úpravě textu je využíván pevný, předem připravený textový kodér CLIP ViT-L/14, který transformuje textové vstupy do vloženého prostoru.[13]

Výzkumníci zdůrazňují zvýšenou výpočetní efektivitu při trénování a generování jako klíčovou výhodu modelu latentní difúze (LDM). Tato efektivita představuje výrazné zlepšení oproti jiným přístupům, což potvrzuje významný pokrok v oblasti odšumování a generativního modelování.

S 860 miliony parametry v U-Net a 123 miliony v textovém kodéru se Stable Diffusion v souladu se standardy roku 2022 řadí mezi relativně lehké modely. Na rozdíl od jiných difúzních modelů má schopnost provozovat se na spotřebitelských GPU[14], což představuje významnou výhodu v přístupnosti a možnosti využívání širšího spektra hardwaru. Tato schopnost rozšiřuje dosah modelu a umožňuje efektivní nasazení i na zařízeních s omezenými výpočetními zdroji.

Tréninkové údaje[editovat | editovat zdroj]

Stable Diffusion byla trénována na dvojicích obrázků a popisků pocházejících z LAION-5B, veřejně dostupného datasetu odvozeného z dat Common Crawl, která byla načítána ze sítě. Dataset obsahuje 5 miliard párových kombinací obrazů a textů, které byly klasifikovány podle jazyka a filtrovány do samostatných datasetů podle rozlišení, pravděpodobnosti obsahu vodoznaku a předpokládané "estetické" hodnocení (například subjektivní vizuální kvality).[15] Dataset vytvořila organizace LAION, německá nezisková organizace, která získává finanční prostředky od Stability AI.[16][17]

Model Stable Diffusion byl trénován na třech podmnožinách LAION-5B: laion2B-en, laion-high-resolution a laion-aesthetics v2 5+.[18] Analýza dat trénovacího modelu provedená třetí stranou identifikovala, že z menší podmnožiny 12 milionů obrázků z původního širšího datasetu pochází přibližně 47 % vzorku z 100 různých domén, přičemž Pinterest tvoří 8,5 % této podmnožiny, následovaný webovými stránkami jako WordPress, Blogspot, Flickr, DeviantArt a Wikimedia Commons. [citace potřebná] Vyšetřování Bayerischer Rundfunk ukázalo, že datasety LAION, hostované na Hugging Face, obsahují velké množství soukromých a citlivých dat.[19]

Tréninkové postupy[editovat | editovat zdroj]

Původně byl model trénován na podmnožinách laion2B-en a laion-high-resolution, přičemž poslední několik kol tréninku proběhlo na LAION-Aesthetics v2 5+, což je podmnožina 600 milionů popsaných obrázků. LAION-Aesthetics Predictor V2 předpověděl, že lidé by průměrně udělili hodnocení minimálně 5 z 10, když byli požádáni, aby ohodnotili, jak moc se jim obrázky líbily. [20][21][22] Podmnožina LAION-Aesthetics v2 5+ také vyloučila nízké rozlišení a obrázky, které byly identifikovány jako nesoucí vodoznak s pravděpodobností vyšší než 80 % pomocí LAION-5B-WatermarkDetection.[23] V posledních kolech tréninku bylo navíc sníženo 10 % textové podmíněnosti s cílem zlepšit metodu Classifier-Free Diffusion Guidance.[24]

Model Stable Diffusion byl vytrénován s využitím výkonných 256 grafických karet Nvidia A100, přičemž tento trénink probíhal na webových službách Amazon. Celkem bylo vynaloženo 150 000 hodin GPU výpočetního času na dosažení optimálních výsledků.[25][26][27]

Omezení[editovat | editovat zdroj]

Stable Diffusion má potíže s degradací a nepřesnostmi v určitých scénářích. První verze modelu byla trénována na datasetu s obrázky o rozlišení 512×512, což znamená, že kvalita generovaných obrázků výrazně degraduje, když se specifikace uživatele odchýlí od "očekávaného" rozlišení 512×512.[28] Verze 2.0 aktualizace modelu Stable Diffusion následně přidala schopnost nativně generovat obrázky o rozlišení 768×768.[29] Další výzvou je generování lidských končetin v důsledku nízké kvality dat o končetinách v databázi LAION.[30] Model je nedostatečně vyškolen na porozumění lidským končetinám a obličejům kvůli nedostatku reprezentativních prvků v databázi, a vyvolávání generování obrázků tohoto typu může model zmat.[31] Verze Stable Diffusion XL (SDXL) 1.0, uvedená na trh v červenci 2023, představila nativní rozlišení 1024x1024 a zlepšenou generaci pro končetiny a text.[32][33]

Dostupnost pro jednotlivé vývojáře může být také problémem. Aby bylo možné upravit model pro nové použití, které není zahrnuto v datasetu, například pro generování postav anime ("waifu difúze"),[34] je zapotřebí nových dat a dalšího tréninku. Jemně naladěné adaptace modelu Stable Diffusion vytvořené prostřednictvím dalšího opětovného tréninku byly použity pro různé účely, od lékařského zobrazování po algoritmicky generovanou hudbu.[35][36] Nicméně tento proces jemného ladění je citlivý na kvalitu nových dat; nízké rozlišení obrázků nebo odlišné rozlišení od původních dat může nejen selhat při naučení se nového úkolu, ale i degradovat celkový výkon modelu. I když je model dodatečně vyškolen na obrázky vysoké kvality, je pro jednotlivce obtížné spouštět modely na spotřebitelské elektronice. Například trénovací proces pro waifu-difúzi vyžaduje minimálně 30 GB VRAM,[37] což přesahuje běžné zdroje poskytované v takových spotřebitelských GPU jako například Nvidia GeForce 30 series, které mají pouze kolem 12 GB.[38]

Tvůrci modelu Stable Diffusion uznávají možnost algoritmického zkreslení, neboť byl model primárně trénován na obrázcích s anglickými popisy.[39] Výsledkem je, že generované obrázky posilují sociální zkreslení a jsou západně orientované, neboť tvůrci upozorňují, že model chybí data z jiných komunit a kultur. Model poskytuje přesnější výsledky pro zadání napsaná anglicky ve srovnání s těmi napsanými v jiných jazycích, přičemž západní nebo bílé kultury jsou často defaultním zobrazením.[40]

Jemné ladění koncovým uživatelem[editovat | editovat zdroj]

Aby bylo možné řešit omezení původního tréninku modelu, koncoví uživatelé mohou zvolit implementaci dalšího tréninku k jemnému ladění generovaných výstupů a přizpůsobení je specifickým účelům, což je proces označovaný jako personalizace. Existují tři metody, jak lze na checkpoint modelu Stable Diffusion aplikovat přístupné jemné ladění uživatelem:

  • "Vložení" lze natrénovat z kolekce obrázků poskytnutých uživatelem a umožňuje modelu generovat vizuálně podobné obrázky, kdykoli je název vložení použit ve výzvě ke generování. [41] Vkládání je založeno na konceptu „textové inverze“, který vyvinuli vědci z Tel Aviv University v roce 2022 s podporou společnosti Nvidia, kde jsou vektorové reprezentace pro konkrétní tokeny používané kodérem textu modelu propojeny s novými pseudoslovy. Vložení lze použít ke snížení předsudků v rámci původního modelu nebo k napodobení vizuálních stylů. [42]
  • „Hypersíť“ je malá předtrénovaná neuronová síť, která se aplikuje na různé body v rámci větší neuronové sítě a odkazuje na techniku vytvořenou vývojářem NovelAI Kurumuz v roce 2021, původně určenou pro modely transformátorů pro generování textu. Hypernetworks nasměrují výsledky určitým směrem a umožňují modelům založeným na Stable Diffusion napodobovat umělecký styl konkrétních umělců, i když umělec není rozpoznán původním modelem; zpracovávají obraz nalezením klíčových důležitých oblastí, jako jsou vlasy a oči, a poté tyto oblasti zalepují v sekundárním latentním prostoru. [43]
  • DreamBooth je model generování hlubokého učení vyvinutý výzkumníky z Google Research a Boston University v roce 2022, který dokáže model doladit tak, aby generoval přesné, personalizované výstupy, které zobrazují konkrétní předmět, po školení prostřednictvím sady obrázků, které předmět zobrazují. [44]

Schopnosti[editovat | editovat zdroj]

Model Stable Diffusion podporuje schopnost generovat nové obrázky od základu pomocí textového zadání popisujícího prvky, které mají být zahrnuty nebo vynechány ve výstupu.[45] Existující obrázky mohou být modelem překresleny a začleněny nové prvky popsané textovým zadáním (proces známý jako "vedená syntéza obrázku") pomocí jeho mechanismu difúzního vyhlazování.[46] Kromě toho model umožňuje použití zadání k částečné úpravě existujících obrázků pomocí inpaintingu a outpaintingu, pokud je používán s vhodným uživatelským rozhraním, které podporuje tyto funkce, a existuje mnoho různých implementací s otevřeným zdrojovým kódem.[47]

Pro optimální provoz modelu Stable Diffusion se doporučuje spustit ho na zařízeních s minimálně 10 GB virtuální paměti (VRAM). Nicméně, uživatelé s omezenou virtuální pamětí mají možnost načíst váhy s přesností float16 namísto výchozí float32. Tato možnost umožňuje vyrovnat výkon modelu s nižší spotřebou virtuální paměti,[48] což může být výhodné pro uživatele s omezenými hardwarovými prostředky.

Generování textu na obrázek[editovat | editovat zdroj]

Demonstrace efektu negativního popisu na generaci obrázků
  • Nahoře: žádný negativní popis
  • Uprostřed: "zelené stromy"
  • Dole: "kulaté kameny"

Skript vzorkování textu na obrázek v rámci Stable Diffusion, známý jako „txt2img“, využívá kromě různých parametrů volby zahrnujících typy vzorkování, rozměry výstupního obrázku a počáteční hodnoty také textovým vstupem. Výstupem skriptu je obrazový soubor založený na interpretaci výzvy modelu. [49] Vygenerované obrázky jsou označeny neviditelným digitálním vodoznakem, aby uživatelé mohli identifikovat obrázek jako vytvořený pomocí Stable Diffusion,[49] ačkoli tento vodoznak ztrácí svou účinnost, pokud je velikost obrázku změněna nebo otočena. [50]

Každá generace txt2img bude zahrnovat specifickou počáteční hodnotu, která ovlivňuje výstupní obrázek. Uživatelé se mohou rozhodnout randomizovat semeno (seed), aby prozkoumali různé generované výstupy, nebo použít stejné semeno k získání stejného obrazového výstupu jako dříve vygenerovaný obraz. [51] Uživatelé jsou také schopni upravit počet inferenčních kroků pro vzorkovač; vyšší hodnota trvá delší dobu (lepší kvalita), avšak nižší hodnota může mít za následek vizuální vady (horší kvalita). [51] Další konfigurovatelná možnost, hodnota vodicí stupnice bez klasifikátoru, umožňuje uživateli upravit, jak přesně se výstupní obraz připojuje k výzvě. Experimentálnější případy použití se mohou rozhodnout pro nižší hodnotu rozsahu, zatímco případy použití zaměřené na specifičtější výstupy mohou používat vyšší hodnotu. [51]

Další funkce text2img jsou poskytovány předními implementacemi Stable Diffusion, které umožňují uživatelům upravovat váhu přidělovanou konkrétním částem textové výzvy. Značky důrazu umožňují uživatelům přidat nebo snížit důraz na klíčová slova jejich uzavřením do hranatých závorek. [52] Alternativní metodou úpravy váhy na části výzvy jsou „negativní výzvy“. Negativní výzvy jsou funkcí zahrnutou v některých front-end implementacích, včetně vlastní cloudové služby DreamStudio Stability AI, a umožňují uživateli určit výzvy, kterým by se model měl během generování obrázků vyhnout. Specifikované výzvy mohou být nežádoucími rysy obrazu, které by jinak byly přítomny v obrazových výstupech kvůli pozitivním výzvám poskytnutým uživatelem nebo kvůli tomu, jak byl model původně trénován, přičemž běžným příkladem jsou rozbité lidské ruce. [53] [54]

Úprava obrazu[editovat | editovat zdroj]

Before
After
Demonstrace modifikace obrázek do obrázku (img2img)
  • Nalevo: Originální obrázek vytvořen se Stable Diffusion 1.5
  • Napravo: Modifikovaný obrázek vytvořený se Stable Diffusion XL 1.0

Stable Diffusion také obsahuje další vzorkovací skript „img2img“, který využívá textovou výzvu, cestu k existujícímu obrázku a hodnotu síly mezi 0,0 a 1,0. Skript vygeneruje nový obrázek založený na původním obrázku, který také obsahuje prvky poskytn vstupu. Hodnota síly udává množství šumu přidaného do výstupního obrazu. Vyšší hodnota síly vytváří více variací v rámci obrázku, ale může vytvořit obrázek, který není sémanticky konzistentní s poskytnutou výzvou. [49]

Díky schopnosti img2img přidat do původního obrázku šum je potenciálně užitečný pro anonymizaci dat a rozšiřování dat, při kterých se mění a anonymizují vizuální vlastnosti obrazových dat. [55] Stejný proces může být také užitečný pro převzorkování obrazu, při kterém se zvýší rozlišení obrazu a do obrazu může být přidáno více detailů. [56] Navíc se experimentovalo se Stable Diffusion jako s nástrojem pro kompresi obrazu. Ve srovnání s JPEG a WebP, poslední metody používané pro kompresi obrazu ve Stable Diffusion face omezení při zachování malého textu a obličejů. [57]

Další případy použití pro úpravu obrazu prostřednictvím img2img nabízí řada předních implementací modelu Stable Diffusion. Inpainting zahrnuje selektivní úpravu části existujícího obrazu vymezeného uživatelem poskytnutou maskou vrstvy, která vyplní maskovaný prostor nově vygenerovaným obsahem na základě poskytnuté výzvy. [53] Spolu s vydáním Stable Diffusion 2.0 vytvořila Stability AI speciální model speciálně vyladěný pro případy použití malování. [58] Naopak přemalba rozšíří obraz za jeho původní rozměry a vyplní dříve prázdný prostor obsahem generovaným na základě poskytnuté výzvy. [53]

S vydáním Stable Diffusion 2.0 dne 24. listopadu 2022 byl představen hloubkově naváděný model s názvem „depth2img“. tento model odvodí hloubku poskytnutého vstupního obrazu a generuje nový výstupní obraz na základě textové výzvy a informací o hloubce, což umožňuje zachovat soudržnost a hloubku původního vstupního obrazu ve generovaném výstupu. [58]

ControlNet[editovat | editovat zdroj]

ControlNet[59] je architektura neuronové sítě navržená pro řízení modelů difúze začleněním dalších podmínek. Duplikuje váhy bloků neuronové sítě do „uzamčené“ kopie a „trénovatelné“ kopie. „Trénovatelná“ kopie se naučí požadovaný stav, zatímco „uzamčená“ kopie zachová původní model. Tento přístup zajišťuje, že trénování s malými datovými sadami obrazových párů neohrozí integritu difúzních modelů připravených pro výrobu. "Nulová konvoluce" je konvoluce 1×1 s hmotností i předpětím inicializovaným na nulu. Před tréninkem všechny nulové konvoluce produkují nulový výstup, čímž se zabrání jakémukoli zkreslení způsobenému ControlNet. Žádná vrstva není trénována od nuly; proces se stále dolaďuje a udržuje původní model v bezpečí. Tato metoda umožňuje trénink modelů na malých nebo dokonce osobních zařízeních.

Vydání[editovat | editovat zdroj]

Číslo verze Datum vydání Odkaz
1,0
1.4 srpna 2022 [60]
1.5 října 2022 [61]
2,0 listopadu 2022 [62]
2.1 prosince 2022 [63]
XL 1.0 července 2023 [64]

Použití a kontroverze[editovat | editovat zdroj]

Stable Diffusion si nenárokuje žádná práva na generované obrázky a volně dává uživatelům práva na použití jakýchkoli vygenerovaných obrázků z modelu za předpokladu, že obsah obrázku není nezákonný nebo škodlivý pro jednotlivce nebo skupinu. Svoboda poskytovaná uživatelům v používání obrázků vyvolala spory ohledně etiky vlastnictví, protože Stable Diffusion a další generativní modely jsou trénovány z obrázků chráněných autorským právem bez souhlasu vlastníka. [65] To také vede k velkému množství soukromých a citlivých informací v tréninkových datech. [66]

Vzhledem k tomu, že vizuální styly a kompozice nepodléhají autorským právům, je často interpretováno, že uživatelé Stable Diffusion, kteří vytvářejí obrázky uměleckých děl, by neměli být považováni za porušující autorská práva vizuálně podobných děl. [67] Jednotlivci vyobrazení na generovaných obrázcích však mohou být chráněni osobnostními právy, pokud je použita jejich podoba [67], a duševní vlastnictví, jako jsou rozpoznatelná loga značek, stále zůstává chráněno autorským právem. Vizuální umělci nicméně vyjádřili obavy, že rozšířené používání softwaru pro syntézu obrazu, jako je Stable Diffusion, může nakonec vést k tomu, že lidští umělci spolu s fotografy, modelkami, kameramany a herci postupně ztrácejí komerční životaschopnost proti konkurentům založeným na umělé inteligenci.

Stable Diffusion je ve srovnání s jinými komerčními produkty založenými na generativní umělé inteligenci zejména tolerantnější, pokud jde o typy obsahu, který mohou uživatelé vytvářet, jako jsou násilné nebo sexuálně explicitní snímky. [68] Generální ředitel společnosti Stability AI, Emad Mostaque, se vypořádal s obavami, že model může být použit pro zneužití, tvrdí, že „[je] odpovědností lidí za to, zda jsou etické, morální a legální v tom, jak tuto technologii provozují“. a že uvedení schopností Stable Diffusion do rukou veřejnosti by vedlo k tomu, že technologie bude poskytovat čistý přínos, a to i přes potenciální negativní důsledky. Mostaque navíc tvrdí, že záměrem otevřené dostupnosti Stable Diffusion je ukončit podnikovou kontrolu a dominanci nad takovými technologiemi, které dříve vyvíjely pouze uzavřené systémy umělé inteligence pro syntézu obrazu. [68] To se odráží ve skutečnosti, že jakákoli omezení Stability AI na obsah, který mohou uživatelé generovat, lze snadno obejít díky dostupnosti zdrojového kódu. [65]

Kontroverze kolem fotorealistických sexualizovaných zobrazení nezletilých postav byla vychována kvůli tomu, že takové obrázky vytvořené Stable Diffusion jsou sdíleny na webových stránkách, jako je Pixiv . [69]

Soudní spory[editovat | editovat zdroj]

V lednu 2023 podali umělci Sarah Andersen, Kelly McKernan a Karla Ortiz žalobu na porušení autorských práv proti Stability AI, Midjourney a DeviantArt s tvrzením, že tyto společnosti porušily práva milionů umělců tím, že vycvičily nástroje AI na pěti miliardách obrázků stažených z webu bez souhlasu původních umělců. [70] Ve stejném měsíci byla Stability AI také žalována společností Getty Images za použití jejích obrázků v tréninkových datech. [71]

V červenci 2023 americký okresní soudce William Orrick rozhodl ve prospěch zamítnutí většiny žalob podaných Andersenovou, McKernanovou a Ortizovou. Nicméně, soudce umožnil těmto stranám podat novou stížnost.[72]

Licence[editovat | editovat zdroj]

Na rozdíl od některých modelů, jako například DALL-E, Stable Diffusion nabízí transparentnost a otevřenost tím, že poskytuje svůj zdrojový kód spolu s předtrénovanými váhami modelu.[73][74]

Pro regulaci užívání modelu M[75] je však zavedena licence Creative ML OpenRAIL-M, která představuje formu Responsible AI License (RAIL).

Licence podle RAIL explicitně zakazuje některé konkrétní případy použití, včetně zločinu, urážky na cti, obtěžování, doxingu, vykořisťování nezletilých, poskytování lékařských rad, automatické vytváření právních povinností, předkládání právních důkazů a diskriminace nebo poškozování jednotlivců nebo skupin na základě sociálního chování nebo osobních charakteristik,[76][77] a to včetně zákonem chráněných vlastností nebo kategorií.[78]

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Stable Diffusion na anglické Wikipedii.

  1. Announcing SDXL 1.0 [online]. Dostupné v archivu pořízeném z originálu dne July 26, 2023. 
  2. Leaked deck raises questions over Stability AI's Series A pitch to investors [online]. [cit. 2023-06-20]. Dostupné v archivu pořízeném z originálu dne June 29, 2023. 
  3. Revolutionizing image generation by AI: Turning text into images [online]. [cit. 2023-06-21]. Dostupné v archivu pořízeném z originálu dne September 17, 2022. 
  4. MOSTAQUE, Emad. Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen [online]. November 2, 2022 [cit. 2023-06-22]. Dostupné v archivu pořízeném z originálu dne July 20, 2023. (anglicky) 
  5. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  6. The new killer app: Creating AI art will absolutely crush your PC [online]. [cit. 2022-08-31]. Dostupné v archivu pořízeném z originálu dne 2022-08-31. 
  7. The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration [online]. [cit. 2023-06-20]. Dostupné v archivu pořízeném z originálu dne June 21, 2023. 
  8. KORN, Jennifer. Getty Images suing the makers of popular AI art tool for allegedly stealing photos [online]. 2023-01-17 [cit. 2023-01-22]. Dostupné v archivu pořízeném z originálu dne March 1, 2023. (anglicky) 
  9. WIGGERS, Kyle. Stability AI, the startup behind Stable Diffusion, raises $101M [online]. 17 October 2022 [cit. 2022-10-17]. Dostupné v archivu pořízeném z originálu dne October 17, 2022. (anglicky) 
  10. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  11. ALAMMAR, Jay. The Illustrated Stable Diffusion [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne November 1, 2022. 
  12. ALAMMAR, Jay. The Illustrated Stable Diffusion [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne November 1, 2022. 
  13. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  14. Stable diffusion pipelines [online]. [cit. 2023-06-22]. Dostupné v archivu pořízeném z originálu dne June 25, 2023. 
  15. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  16. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  17. This artist is dominating AI-generated art. And he's not happy about it. [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 14, 2023. (anglicky) 
  18. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  19. BRUNNER, Katharina; HARLAN, Elisa. We Are All Raw Material for AI [online]. Bayerischer Rundfunk (BR), 2023-07-07 [cit. 2023-09-12]. Dostupné v archivu pořízeném z originálu dne September 12, 2023. 
  20. SCHUHMANN, Christoph. CLIP+MLP Aesthetic Score Predictor. [s.l.]: [s.n.], 2022-11-02. Dostupné v archivu pořízeném z originálu dne June 8, 2023. 
  21. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  22. LAION-Aesthetics | LAION [online]. [cit. 2022-09-02]. Dostupné v archivu pořízeném z originálu dne 2022-08-26. (anglicky) 
  23. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  24. Šablona:Cite arXiv
  25. MOSTAQUE, Emad. Cost of construction [online]. August 28, 2022 [cit. 2022-09-06]. Dostupné v archivu pořízeném z originálu dne 2022-09-06. (anglicky) 
  26. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  27. WIGGERS, Kyle. A startup wants to democratize the tech behind DALL-E 2, consequences be damned [online]. 2022-08-12 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 19, 2023. (anglicky) 
  28. Stable Diffusion with 🧨 Diffusers [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne January 17, 2023. 
  29. Stable Diffusion 2.0 Release [online]. Dostupné v archivu pořízeném z originálu dne December 10, 2022. 
  30. LAION [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 16, 2023. (anglicky) 
  31. Generating images with Stable Diffusion [online]. 2022-08-24 [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 31, 2022. (anglicky) 
  32. Announcing SDXL 1.0 [online]. [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne July 26, 2023. (anglicky) 
  33. EDWARDS, Benj. Stability AI releases Stable Diffusion XL, its next-gen image synthesis model [online]. 2023-07-27 [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne August 21, 2023. (anglicky) 
  34. hakurei/waifu-diffusion · Hugging Face [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 8, 2023. 
  35. Šablona:Cite arXiv
  36. Seth Forsgren; HAYK MARTIROS. Riffusion - Stable diffusion for real-time music generation [online]. Dostupné v archivu pořízeném z originálu dne December 16, 2022. 
  37. MERCURIO, Anthony. Waifu Diffusion. [s.l.]: [s.n.], 2022-10-31. Dostupné v archivu pořízeném z originálu dne October 31, 2022. 
  38. SMITH, Ryan. NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne August 27, 2023. 
  39. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  40. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  41. ; Dave James. Dostupné online. 
  42. Šablona:Cite arXiv
  43. Dostupné online. 
  44. ; Yuki Yamashita. Dostupné online. (japonsky) 
  45. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  46. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  47. Stable Diffusion web UI [online]. 10 November 2022 [cit. 2022-09-27]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. 
  48. Stable Diffusion with 🧨 Diffusers [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne January 17, 2023. 
  49. a b c Dostupné online. 
  50. [s.l.]: [s.n.] Dostupné online. 
  51. a b c Dostupné online. 
  52. Dostupné online. (anglicky) 
  53. a b c Dostupné online. 
  54. Dostupné online. 
  55. Šablona:Cite arXiv
  56. Luzi, Lorenzo; Siahkoohi, Ali; Mayer, Paul M.; Casco-Rodriguez, Josue; Baraniuk, Richard (October 21, 2022).
  57. BÜHLMANN, Matthias. Stable Diffusion Based Image Compression [online]. 2022-09-28 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne November 2, 2022. (anglicky) 
  58. a b Dostupné online. 
  59. Zhang, Lvmin (February 10, 2023).
  60. Dostupné online. 
  61. Dostupné online. 
  62. Dostupné online. 
  63. Dostupné online. 
  64. Dostupné online. 
  65. a b Dostupné online. (anglicky) 
  66. Dostupné online. 
  67. a b Dostupné online. (japonsky) 
  68. a b ; Ryo Shimizu. Dostupné online. (japonsky) 
  69. Dostupné online. (anglicky) 
  70. Dostupné online. 
  71. Dostupné online. (anglicky) 
  72. BRITTAIN, Blake. US judge finds flaws in artists' lawsuit against AI companies. Reuters. 2023-07-19. Dostupné v archivu pořízeném z originálu dne September 6, 2023. (anglicky) 
  73. Stable Diffusion Public Release [online]. [cit. 2022-08-31]. Dostupné v archivu pořízeném z originálu dne 2022-08-30. 
  74. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  75. From RAIL to Open RAIL: Topologies of RAIL Licenses [online]. 18 August 2022 [cit. 2023-02-20]. Dostupné v archivu pořízeném z originálu dne July 27, 2023. (anglicky) 
  76. Ready or not, mass video deepfakes are coming. The Washington Post. 2022-08-30. Dostupné v archivu pořízeném z originálu dne 2022-08-31. 
  77. License - a Hugging Face Space by CompVis [online]. [cit. 2022-09-05]. Dostupné v archivu pořízeném z originálu dne 2022-09-04. 
  78. Katsuo Ishida. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能 [online]. August 26, 2022 [cit. 2022-10-04]. Dostupné v archivu pořízeném z originálu dne November 14, 2022. (japonsky) 

Externí odkazy[editovat | editovat zdroj]