Diskuse k Wikipedii:Velikost Wikipedie

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Poznámka: bajt a znak není totéž. Miraceti 20. 3. 2017, 22:43 (CET)[odpovědět]

To je dobrý postřeh. Mohlo mi dojít, že MediaWiki nepoužívá ASCII, ale Unicode, a že to může mít pro výpočet určité důsledky. Zvlášť v češtině, kde se hojně používá diakritika. (Asi to i vysvětluje, proč je průměrná délka českého slova v bajtech o tolik větší než v angličtině.) Když si ale výpočet procházím, tak mi tam vychází pořád 1,5 miliardy znaků. Jenom ty formulace (a přepočet na normostrany, ale ten není tak důležitý) bude potřeba upravit. Je to tak? --Vojtěch Veselý (diskuse) 20. 3. 2017, 23:16 (CET)[odpovědět]

Statistiky z korpusu[editovat zdroj]

Na pražském hackathonu jsem započal práci na korpusu z české Wikipedie, vytvářeném v softwaru Sketch Engine za podpory jeho tvůrce – firmy, pro kterou nyní pracuji. Chystáme se časem vytvořit korpusy ze všech Wikipedií, ale češtinu bych chtěl zkoumat přednostně. Z prototypu, který už mám – stáhl a zpracoval jsem veškerý text české Wikipedie – vychází, že průměrná délka slova je 5,69 znaků. To se ostatně dosti podobá číslu 5,54, které odvodili z korpusů obecného českého textu kolegové v laboratoři zpracování přirozeného jazyka na mé domovské FI MU (určitý rozdíl bude i v tom, že dosud jsou v korpusu i texty referencí, takže mezi nejčastější slova patří „online“, což se ale chystám řešit). Ten odkázaný výzkum kolegů (potažmo i můj) je určitě lepší východisko pro tuto stránku než odhad z velikosti normostrany; a když mám resp. budu mít korpus, rád přímo na něm určím i takové věci jako celkový počet slov, takže už nebude nutné to na této stránce jen odhadovat, nýbrž to zde bude možné napsat přesně, a to na základě aktuálních (a průběžně dále aktualizovaných) dat. Už jsem si ostatně začal pohrávat s myšlenkou prezentovat nějaké takovéto statistiky vytažené z budovaného korpusu na příští Wikikonferenci a navrhl jsem to jejím organizátorům jako bod do programu. Tak uvidíme, jaký o to bude zájem. (Věděli jste, že osmé nejčastější [[lemma] v textu české Wikipedie, hned po spojkách, předložkách a slovesu „být“, je slovo „rok“?) --Blahma (diskuse) 11. 7. 2019, 22:32 (CEST)[odpovědět]