Přeskočit na obsah

Wikipedie:Velké jazykové modely

Z Wikipedie, otevřené encyklopedie

pravidla:

     závazná
     doporučení
     v hlasování
     navrhovaná
     neschválená
Návrh doporučení

Následující text je návrhem doporučení české Wikipedie. Své připomínky a návrhy vyjádřete na diskusní stránce, závažné návrhy oznamte též Pod lípou. Případné alternativní návrhy můžete umístit na tuto stránku, neměňte však texty cizích návrhů. Posuzování návrhů má probíhat tak, aby byl konečný text výsledkem konsensu.


Zkratka:
  • První přesměrování „WP:GPT“ neexistuje!
    Druhé přesměrování „WP:VJM“ neexistuje!

Rapidní vývoj strojového učení ve 21. století způsobil rozšíření umělé inteligence (zkr. AI) do každodenního života lidí, zejména prostřednictvím tzv. velkých jazykových modelů (zkr. LLM) či AI chatbotů, jako jsou ChatGPT, Gemini, DeepSeek aj. Tyto pokročilé technologie nicméně mají svá omezení a využití jejich „znalostí“ je na Wikipedii problematické. Empirická pozorování ukazují, že mají tendenci vymýšlet si fakta i zdroje, mohou porušovat autorská práva nebo být jinak zaujaté. Tyto skutečnosti jsou v rozporu s pilíři, na kterých Wikipedie stojí, a editorům Wikipedie se proto nedoporučuje jejich výstupy do Wikipedie vkládat bez důsledné kontroly toho, že její pravidla neporušují.

K jakémukoliv jinému využití velkých jazykových modelů se toto doporučení staví neutrálně. Demonstrace toho, jak mohou tyto technologie pomoct Wikipedii plnit její cíl zpřístupnit zdarma veškeré znalosti, jsou vítány. Při takových úkonech v rámci Wikipedie je vhodné vždy jejich použití deklarovat, například ve shrnutí editace.

Velké jazykové modely…

… mohou halucinovat fakta i zdroje.
Velké jazykové modely jsou statistickými modely. Pro daný prompt vygenerují nejvíce pravděpodobný (v terminologii statistiky věrohodný) výstup. Neexistuje však garance toho, že je výstup pravdivý nebo alespoň v souladu s trénovacími daty. V praxi již byla demonstrována schopnost LLM generovat i celé hoaxy.[1] Velké jazykové modely navíc zpravidla necitují zdroje nebo na vyžádání uvádějí zdroje, které jsou vymyšlené, což je v rozporu s požadavkem na ověřitelnost obsahu.
… mohou porušovat autorská práva.
V roce 2025 je právní rámec velkých jazykových modelů stále otevřenou otázkou. Nicméně v praxi byla demonstrována tendence těchto nástrojů kopírovat nebo jen velmi slabě parafrázovat cizí texty, a tím porušovat práva jejich autorů. Toto lze pozorovat jak v situaci, kdy má umělá inteligence za úkol cizí text zjednodušit/zkrátit, tak i na sumarizaci textů, které nástroj sám našel na internetu.[2]
… mohou být učeny na nevěrohodných zdrojích informací.
Nelze vyloučit, že trénovací data velkého jazykového modelu zahrnují zdroje, které Wikipedie výslovně zakazuje nebo nepovažuje za věrohodné. Jde například o Wikipedii samotnou, její mirrory, blogy, fóra, weby s obsahem generovaným LLM, weby na protispamové listině nebo zpětnou vazbu od uživatelů LLM.
… jsou proprietárními černými skříňkami.
Zdrojové kódy ani trénovací data většinou nejsou veřejně dostupné a nelze vyloučit, že s nimi nebylo účelově manipulováno. Výstup navíc může být generován danému uživateli „na míru“ nebo s využitím prvku náhody (v extrémním případě i cenzurován).

Z výše uvedených důvodů nejsou LLM považovány ani za věrohodné zdroje (viz Wikipedie:Věrohodné zdroje#Velké jazykové modely), a jejich výstupem proto nelze zdrojovat ostatní uživatelský obsah. Rozhraní jazykových modelů připouštějí chyby a doporučují vlastní kontrolu informací.[3]

Kromě toho výstup z LLM také často obsahuje neencyklopedické, subjektivní či vyhýbavé formulace.

Podezření na vygenerovaný obsah

[editovat | editovat zdroj]

Obsah, u kterého existuje podezření, že byl vygenerován umělou inteligencí, lze označit údržbovou šablonou {{Napsáno umělou inteligencí}}, případně jako neověřený odstranit (zejména v případě článků o žijících osobách) nebo postoupit do procesu odloženého smazání.

Obsah této stránky byl inspirován jejím protějškem na anglické Wikipedii.

Související stránky

[editovat | editovat zdroj]