Diskuse k Wikipedii:WikiProjekt Strojové zpracování

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Jak vytvořit bota[editovat zdroj]

@Dvorapa:Zdravím, jste zváni k vytvoření návodu, jak vytvořit bota. Začal jsem na mém pískovišti částečným překladem z en:Wikipedia:Creating a bot, editujte s odvahou. Zatím to není v provozuschopném stavu, nechal jsem to tedy zatím na pískovišti, protože projektové pískoviště nemáme, zvolil jsem své vlastní. --Urbanecm (diskuse) 25. 1. 2016, 19:24 (CET)

Zatím jsem udělal typo úpravy. Ale přijde mi to moc zatížené technickým žargonem. Otázkou je, pokud by to bylo napsané polopatě, pak by si asi bota mohl vytvořit každý a to nevím, jestli chceme... Matěj Suchánek (diskuse) 25. 1. 2016, 19:54 (CET)
Všiml jsem si tam červeného odkazu na Wikipedie:Editační nástroje, tak mě napadlo, že by v souvislosti s tím bylo dobré aktualizovat, opravit a doplnit stávající stránku Wikipedie:Technické pomůcky (odkaz na en:Wikipedia:Creating a bot totiž vede na podstránku en:Wikipedia:Tools, která je s technickými pomůckami propojena) a poté případně tento červený odkaz zamodřit přesměrováním na příslušnou kapitolu/podstránku technických pomůcek. Já teď bohužel ebudu mít cca měsíc čas, jinak bych se do toho vrhl hned, tak to píšu sem, kdyby se toho chtěl někdo zhostit dřív. --Dvorapa (diskuse) 25. 1. 2016, 19:57 (CET)
Zatím jsem redir vytvořil, ten ničemu nevadí, na aktualizaci se vrhnu někdy později. Díky. --Urbanecm (diskuse) 25. 1. 2016, 20:08 (CET)
Jak to vypadá s návodem na tvorbu bota? Je třeba s něčím pomoct? --Dvorapa (diskuse) 14. 6. 2016, 19:36 (CEST)
Mrtvě, zapomněl jsem na to. Jdu v tom pokračovat :-) --Martin Urbanec (diskuse) 14. 6. 2016, 19:39 (CEST)

Sjednocení infoboxů[editovat zdroj]

Myslím, že prvním společným úkolem pro boty by mohlo být dokončení sjednocení infoboxů (máme skoro tři roky skluz). Vizte podstránku. Matěj Suchánek (diskuse) 29. 1. 2016, 11:46 (CET)

Pro projekt jsem vytvořil seznam infoboxů s nesprávným názvem. Ze dneška je dostupný zde. --Urbanecm (diskuse) 29. 1. 2016, 13:12 (CET)
Pouze je přejmenovat je otázka chvilky (stačí napsat které), ale měly by se zrevidovat, jestli některé jejich arametry nezaslouží opravu (tak jak to dělal Matěj na svém pískovišti v odkazu nahoře), ať se to případně udělá najednou. --Wesalius d|p 29. 1. 2016, 13:15 (CET)
Podle mě by se měly sjednotit parametry (nikoli název fakulty, ale jen název, popřípadě nikoliv popisek obrázku, ale jen popisek). Jestli ten skript na té podstránce skousne, že některé parametry se tam nemusí vyskytnout, mohlo by se to udělat u všech na odkazované stránce na Toolforge. Čili regex stylu název .* by dle mě mohl odchytit většinu chybně zapsaných parametrů název. --Urbanecm (diskuse) 29. 1. 2016, 14:43 (CET)

Vlastní skripty[editovat zdroj]

Jak jsem slíbil v žádosti o příznak bota, na stránku Wikipedie:WikiProjekt Strojové zpracování/Skripty jsem přidal svoje dva skripty pro pwb. Jeden překládá parametry obrázků, dokud je v pwb kvůli objeveným a dosud neopraveným chybám pozastavené překládání kouzelných slůvek, druhý upravuje mezery a odřádkování v infoboxech pro lepší přehlednost. Jsou řádně otestované, ale kdyby se přece jenom našla chyba, hlaste mi je nebo je zkuste opravit (a řádně znovu otestovat).Kdyby se někomu hodily, neváhejte je použít, přičemž není nutno nikde uvádět autora ani nic podobného (licence CC0). Pokud byste na nich chtěli vydělat, pak doufám, že se podělíte :-). Zatím tam jsou zahrnuty veškeré šablony, které se jmenují Infobox* a jedna chemická součást infoboxů NFPA 704. Kdyby padla shoda nějakou přidat nebo naopak nějaký infobox vynechat, udělejte tak nebo mi napište. @JAn Dudík: V mojí žádosti o příznak bota jste navrhoval, že bych mohl přispět přímo do pwb (třeba tím skriptem pro infoboxy). Jak to mohu provést? --Dvorapa (diskuse) 30. 1. 2016, 16:51 (CET)

Díky, vypadají zajímavě. K příspívání do PWB viz mw:Manual:Pywikibot/Development. Matěj Suchánek (diskuse) 30. 1. 2016, 16:58 (CET)
Díky, infoboxy už zkouším (v cosmetic_changes je třeba na začátku (někde mezi řádky 214 a 236) přidat odkaz self.beautifyInfoboxes,

a vlastní skript odsadit o tři znaky).

Já svoje dvě či tři vlastní úpravy bota dával jako diff soubor k hlášení chyby, ale jinak se to dělá nějak přes gerrit. O přístup se pak žádá např. přes maillist JAn (diskuse) 30. 1. 2016, 20:35 (CET)
U mě odsadit o 4 znaky, ale to je asi různé. Předpokládal jsem, že každý botovodič, kdo někdy vkládal něco do cosmetic_changes tak nějak ví, co a jak, ale děkuji za doplnění a opravy na stránce se skripty. Jinak v návodech odkazovaných Matějem Suchánkem je vše popsáno přehledně, někdy se na to podívám, děkuji vám oběma za tipy a odkazy. --Dvorapa (diskuse) 30. 1. 2016, 20:44 (CET)

TemplateData[editovat zdroj]

Přesunuto z WP:Pod lípou (návrhy)

V souvislosti s tímto požadavkem mě napadlo, jestli by nebylo dobré přidat alespoň nějakou základní kostru TemplateData do všech šablon. Z kódu šablony by se vytáhl text, v něm by se našlo re.search(r'{{{([^\|\<\}]*)', text).group(1), takže máme seznam parametrů šablony a podle případné výchozí hodnoty lze přidat vyžadováno, datový typ i příklad. K tomu nebude problém z hlavičky dokumentace šablony doplnit popisek šablony, přidat nadpis a základ je hotov. Co myslíte?

--Dvorapa (diskuse) 31. 1. 2016, 11:42 (CET)

Tohle by možná spíš zajímalo lidi z wikiprojektu. Matěj Suchánek (diskuse) 31. 1. 2016, 11:07 (CET)
Je, děkuji, psal jsem to do špatného okna a ještě odklepl dřív, než jsem se stihl podepsat. Na otázku, jestli má člověk editovat Wikipedii ve dvě ráno unaven je jen jedna odpověď :-). --Dvorapa (diskuse) 31. 1. 2016, 11:42 (CET)

Jak to je s narovnáváním odkazů?[editovat zdroj]

Docela hodně času jsem v minulosti strávil narovnáváním odkazů po přesunech, i teď je v ŽOPPu aktivní požadavek o další opravy (někdy také "fix linků" a "fix přesměrování" nebo i "zafixování"...). Byl jsem v různých diskuzích upozorněn, že tato činnost je zbytečná, většinou podloženo argumentem en:WP:NOTBROKEN. Může mi někdo vysvětlit, jak se věci mají a jestli narovnávání odkazů vedoucích na přesměrování smysl má? Díky za objasnění. --Wesalius d|p 31. 1. 2016, 14:06 (CET)

V případech, kdy redir nebude smazán (a i to by mělo být výjimkou kvůli četným odkazům z vnějšku) to dle mě smysl nemá téměř nikdy. Databázový dump má přibližně 125 GB v nekomprimované podobě (kompletní edit. historie), aktuální verze stránek zabírá asi 3,1 GB. Kdybychom chtěli narovnat všechny rediry a ve 3/4 článcích by se nějaký vyskytoval, databáze se zvětší o 2,325 GB (1,86 %). My si musíme říci, zda nám nepřesměrování při načtení (narovnání přesměrování je o mnoho výkonově náročné, než jeho narovnání) stojí za zatížení servery dvěma GB, bez kterých bychom se byli schopni obejít. Čísla jsem získal testem komprimace souboru pomocí bz2 a následného přepočtu dat z dumpu stejným poměrem. --Urbanecm (diskuse) 31. 1. 2016, 15:21 (CET)
Pokud se i ostatní vyjádří tak, že to nemá smysl, tak bychom měli nějak veřejně dát najevo, že jak to narovnávání, tak žádání o něj je zbytečné, ať se nemnoží ŽOPPy, které nám ubírají člověkohodiny práce zbytečně. --Wesalius d|p 31. 1. 2016, 22:12 (CET)
Věc má dvě roviny. Na jedné straně je tu doporučení, aby v dobrých a nejlepších článcích byly přímé odkazy. Dokonce je v pywikibotovi skript fixing_redirects.py
Také je žádoucí narovnávat přesměrování v případě zavádějícího názvu, potřeby uvolnění názvu pro rozcestník/významnější článek atp.
Leckdy je lepší redirect smazat, než nechávat - obvykle, pokud je redirect s rozlišovačem a tento rozlišovač není součástí zaběhnutého systému (příklad Smrk (obec) -> Smrk (okres Třebíč))
Rozhodně je užitečné narovnávat přesměrování šablon a kategorií.
Na straně druhé, pokud bychom jeli jedno přesměrování po druhém, může v článku vzniknout několik zbytečných revizí.
Také jsou určité redirecty, které by se z principu neměly narovnávat - pokud je přesměrování na obecnější téma a článek by mohl vzniknout (typicky povolání -> činnost, tedy třeba fotbalista -> fotbal). DObře je to vidět v Wikipedie:Seznam nejvíce odkazovaných přesměrování - článek řapík už existuje, fotbalista by mohl vzniknout, zatímco Česká republika lze narovnat.
JAn (diskuse) 1. 2. 2016, 07:51 (CET)
My dokážeme ovlivnit to, co máme zde na Wikipedii. Jenže tím tvoříme přerušené "externí odkazy na Wikipedii" z venku. Nevidím jediný důvod, proč redirect neponechávat. Úspora místa v DB to asi není, vzhledem k tomu, že tam fyzicky zůstat musí, aby šel obnovit. Pokud existuje nějaká jiná ency významná obec s názvem Smrk, je to samozřejmě na smaz. Přesně o to zbytečné zvětšení velikosti mi jde. Při každém uložení se uloží znovu celý článek (rozdíly se neukládají kvůli rychlosti vykreslování, servery Nadace odbavují přes tisícovku požadavků za sekundu, kdyby se při každém parsování měly aplikovat všechny revize, ani představit si to nechci :)) --Urbanecm (diskuse) 1. 2. 2016, 08:52 (CET)
Já bych ještě dodal enwiki doporučení MOS:NOPIPE a WP:NOTBROKEN, která doporučují využívat přesměrování místo odkazů s popiskem. Doporučují také u narovnávání odkazů co nejméně zasahovat do článků, pokud vše funguje a nic není rozbité. Nevím, jestli na to něco máme i na cswiki, ale třeba by se to mohlo z enwiki přeložit do doporučení, pokud ne. --Dvorapa (diskuse) 6. 2. 2016, 11:14 (CET)
S tím napřimováním v případě České republiky bych byl také opatrný. Jeden argumentů zastánců používání jednoslovného názvu je právě to, že je obecnější (že je jménem oblasti i v době, kdy Česká republika neexistovala). A přesměrování z přesnějšího na obecnější se opravovat nemá.--Tchoř (diskuse) 6. 2. 2016, 12:17 (CET)
K tomu bych rád přidal, že opravdu v případech požadavků týkajících se Česká Republika/Česko je třeba být zvláště opatrný před zahájením prací, protože sám jsem se opakovaně v minulosti přesvědčil, že to rozdmychává velké emoce (poloautomatické editace ještě daleko větší než manuální) a pokaždé jsem toho litoval, když jsem takový požadavek začal plnit. Ale teď recentně nikdo nic takového nenarovnával, Tchoři, nebo ano? --Wesalius d|p 6. 2. 2016, 12:31 (CET)

Názvy infoboxů Něcobox[editovat zdroj]

Mám dotaz, jak nakládat s infoboxy, které se jmenují např. Taxobox nebo Planetbox. Nechat je s tímto názvem? Přejmenovat na Infobox - něco? --Dvorapa (diskuse) 5. 4. 2016, 09:57 (CEST)

{{Taxobox}} je zažitá výjimka potvrzující pravidlo (a jak by se jmenoval jinak? {{Infobox - taxobox}}? {{Infobox - taxon}}?), jak bylo nadhozeno i v přízlušném ŽoKu.
{{Planetbox}} samostatně neexistuje, její části jsou použity ve 13 článcích. nezkoumal jsem, ale mohlo by jít nahradit nějakým jiným existujícím infoboxem. JAn (diskuse) 5. 4. 2016, 11:48 (CEST)

Přesměrovávací iboxy[editovat zdroj]

Zdravím, doporučoval bych zaměřit pozornost na toolforge:urbanecmbot/oldIbox/redirs (přesměrovávací staře pojmenované infoboxy). --21. 4. 2016, 10:25 (CEST)

Mohl byste to rozvést pro nezasvěcené? --Wesalius d|p 27. 4. 2016, 18:08 (CEST)
Klidně. Na tom seznamu se vyskytují iboxy sice přejmenované, ale ze starého názvu vede redirect, čili je pravděpodobně potřeba nějaký zásah. --Urbanecm (diskuse) 27. 4. 2016, 19:04 (CEST)

Pagegenerator PWB - počet znaků/velikost[editovat zdroj]

Má pwb parametr, pro selekci článků dle jejich délky - počet znaků nebo velikost v bytech? Díky --Wesalius d|p 25. 4. 2016, 12:41 (CEST)

Pwb zná tohle, velikost tam nevidím. --Urbanecm (diskuse) 27. 4. 2016, 19:13 (CEST)
V databázové tabulce to ale je a normálně s page_len pracuji, takže to možná jen chybí v API, které PWB používá. Doporučuji v případě potřeby nahradit jednoduchým SQL-dotazem do databáze např. přes Quarry a pak PWB předhodit seznam článků, na kterých má pracovat, v externím souboru. --Blahma (diskuse) 27. 4. 2016, 21:44 (CEST)

Nefunkční odkazy[editovat zdroj]

Nedávno jsem opravil nefunkční odkazy na Vojenský historický archiv a tím vyřešil několik let starý problém a nyní bych chtěl poprosit o pomoc další botovodiče (protože to zdá se je trochu nad moje síly) s tímto problémem, který je už také minimálně dva roky starý a stále nevyřešený, navíc už asi dva roky straší v hlavičce posledních změn. --Dvorapa (diskuse) 25. 6. 2016, 19:52 (CEST)

(@Ben Skála, Kloin) První problém je, že nemohu na webu isu.cz nikde najít kam se poděla původní databáze a jak nyní vypadají jednotlivé položky (adresy url), abych mohl připravit bota. --Dvorapa (diskuse) 25. 6. 2016, 20:06 (CEST)
A jak vypadaly ty původní, respektive co tím chceme zdrojovat? Koukám na Zálesí (Doubravice). Pokud chceme zdrojovat výměru katastrálního území, tak to by šlo asi i odjinud (třeba [1]).
A pokud to půjde překládat nějak jednoduše, tak je na zvážení, zda nepoužít šablonu, něco typu {{zdroj výměry kú|číslo kú}}. Aby už příště nemusel běhat bot.--Tchoř (diskuse) 26. 6. 2016, 18:47 (CEST)
V mnoha článcích o částech obcí není funkční ani jeden z externích odkazů. V příkladu Zálesí (Doubravice) by měl odkaz na ISU zdrojovat výměru, odkaz na ČSÚ počet obyvatel a odkaz na MVČR počet adres. Zjistil jsem, že webarchiv kromě ČSÚ nic z rozbitých odkazů neobsahuje. Jestli lze na ČÚZK zjistit výměru části obce, tím lépe. Takže je potřeba ČSÚ přesměrovat na webarchiv, ISU nahradit za ČÚZK. Tuší někdo, kde lze na webu nalézt zdroj pro počet adres? --Dvorapa (diskuse) 26. 6. 2016, 19:15 (CEST)
Děkuji vám, že se tím po letech zabýváte. Já se v tom vůbec nevyznám.--Ben Skála (diskuse) 27. 6. 2016, 18:03 (CEST)
MVČR

Koukal jsem na to MVČR. Došlo hned k několika změnám

  • http://aplikace.mvcr.cz/adresa -> http://aplikace.mvcr.cz/adresy
  • původní formát kraj/obec/cast.html lze částečně nahradit za SearchQuery=část [2]
  • odkazy na konkrétní části jsou dělané nějakým interním číslem, které nevychází z celostátních číselníků
  • odkazy nyní rozlišují diakritku, dotaz zlin nic nenajde, musí se zadat zlín
  • odkaz na unikátní název nebo na seznam částí se stejným názvem lze zadat jako SearchResults.aspx?SearchQuery=název

Jelikož jsou tyto odkazy často v referencích, narážíme na phab:T4700 [3], což znesnadňuje robotickou náhradu Odkazů ve starém formátu je cca 6000. JAn (diskuse) 27. 6. 2016, 21:58 (CEST)

@JAn Dudík: Ale dalo by se to udělat vlastním skriptem (pro pwb), jen místo {{subst:PAGENAME}} se použije self.current_page.title(). Jen nezapomenout na odebrání rozlišovače (poznámka pro mě, jestli se do toho vrhnu, já bych na to jinak zapomněl). --Dvorapa (diskuse) 24. 2. 2017, 20:35 (CET)
@JAn Dudík: Ani opravené odkazy nyní nikam nevedou, zobrazí se jen nic moc neříkající informační stránka. --Dvorapa (diskuse) 7. 9. 2017, 12:44 (CEST)
Bylo by možné je prostě převést na vdp.cuzk.cz, když o tom mluví na té informační stránce? --Dvorapa (diskuse) 7. 9. 2017, 13:46 (CEST)
ÚIR

Cca 7000 odkazů. Odkaz na katastrální území by šel udělat pokud bychom měli jeho identifikační číslo. Případně pomocí šablony {{ÚIR}} a kódu části obce (z Wikidat) se dostaneme na část obce. Pokud bychom měli číslo KÚ (je o jednu cifru delší, než to, co je nyní v nefunkčním odkazu), dostali bychom se i na stránku o k.ú. @Frettie, Vojtěch Dostál: - nedal by se kód KÚ také importovat? JAn (diskuse) 27. 6. 2016, 21:58 (CEST)

Rád kódy katastrálních území naimportuji, příprava zabere pár chvil, ale budeme potřebovat vytvořit položku. Mám požádat o vytvoření něčeho podobného jako má Itálie italský katastrální kód (P806)? --Vojtěch Dostál (diskuse) 27. 6. 2016, 22:09 (CEST)
Hotovo Hotovo., viz technická lípa(? nebo možná ŽOPP, v hledání konverzací - i aktuálních - jsem prostě marnej) --Dvorapa (diskuse) 24. 2. 2017, 20:35 (CET)

Doporučení pro placeholdery[editovat zdroj]

Nevím, kam do struktury tohoto projektu by se to nejvíc hodilo – jde o obecný princip, který by měl být někde vystaven – proto to píši sem:

  1. Infoboxy zobrazující obrázek mohou při nedostupnosti vhodného obrázku zobrazovat vhodný zástupný obrázek, tzv. „placeholder“. Tento obrázek by ovšem neměl být nikdy vyplňován ručně (už kvůli jednotnosti a snadné upravovatelnosti), nýbrž může být v příslušných případech vkládán přímo z infoboxu. V některých případech pak může být vhodné nastavením speciální hodnoty parametru (např. „obrázek=ne“) zobrazení zástupného obrázku potlačit (zejména tehdy, není-li pravděpodobné, že obrázek může být někdy doplněn, protože zřejmě žádný neexistuje).
  2. Jestliže zavádíte do infoboxu používání nového zástupného obrázku, který dosud není na blacklistu rozšíření PageImages, prosím přidejte ho tam (resp. zajistěte jeho přidání správcem). V opačném případě se může stát, že rozšíření PageImages bude placeholder považovat za náhledový obrázek k dotyčnému článku. To negativně ovlivní funkčnost jakýchkoliv programů, které využívají tohoto náhledového obrázku – např. automatické mapy článků bez fotografie, vkládání odkazů ve VisualEditoru, obrázková galerie přeložených článků Česko-slovenské Wikipedie apod. Informaci o tom, který obrázek je ke článku považován za náhledový „Obrázek ke stránce“ naleznete u článku pod odkazem „Informace o stránce“ (v levém menu). Počítejte s tím, že při změně článku a/nebo blacklistu může aktualizace těchto informací u článků nějakou dobu trvat.

--Blahma (diskuse) 17. 10. 2016, 12:46 (CEST)

@Blahma: Nepatří to spíš na WikiProjekt Infoboxy? ;) --Dvorapa (diskuse) 17. 10. 2016, 14:35 (CEST)
@Dvorapa: Vím o netriviálním překryvu mezi oběma, tento mi přišel na první pohled živější a v neposlední řadě tu existuje zvláštní část Wikipedie:WikiProjekt Strojové zpracování/Sjednocení infoboxů – a právě do ní jsem do původně někam chtěl zanořit, protože i toto je věc, kterou některé infoboxy už mají, ale jiné ještě nikoliv, a bylo by vhodné to sjednotit. Proč se sjednocování infoboxů řeší tady a ne v rámci WPI, to už je otázka zase zpátky na ty, co to tady řeší :-) --Blahma (diskuse) 17. 10. 2016, 16:56 (CEST)

Komunita cs.wiki a wikidata listy[editovat zdroj]

Jak moc je známo napříč komunitou cs.wiki, že lze tvořit seznamy na podkladě dat z wikidat díky Listeriabotovi? Dle https://tools.wmflabs.org/listeria/botstatus.php nemáme v NS:0 žádné články obsahující takovýto seznam. Příklad užití v NS:0 na en.wiki zde. Ptám se zde místo pod lípou, protože

  1. je možné, že již dříve se to řešilo/zavrhlo/dávalo na vědomost a já o tom nevím
  2. příspěvek Wikipedie:Pod_lípou#ORES měl nulovou odezvu z komunity, takže váhám, jestli to má smysl, řešit podobné věci pod lípou

--Wesalius d|p 29. 10. 2016, 10:34 (CEST)

Ad 1) Nevím o žádném dávání na vědomost komunitě na nějaké lípě, už vůbec ne o zavrhnutí, ale někdo (možná Vojtěch Dostál) mě na tuto možnost upozorňoval... Ad 2) Dle mě má, ale napřed bych asi vyřešil to, zda to má smysl mezi uživateli technicky znalými a pak až představil řešení komunitě rovnou i s příkladem. Pokud se to bude líbit, pak zavést. Ad ORES) Mě by se ORES líbilo, ale ten příspěvek je tak šíleně obecně psán (je třeba naučit ORES vandalismus; ok, jak a kde?), že jsem na něj nezareagoval... --Martin Urbanec (diskuse) 29. 10. 2016, 10:52 (CEST)
Ad ORES: Když je něco napsáno příliš obecně, těžko to asi někdo konkretizuje, když se k tomu vůbec nevyjádříte, že? --Wesalius d|p 29. 10. 2016, 11:03 (CEST)
A proto to píši prvně sem, má to podle Vás a dalších účastníků WP:WPSZ smysl? --Wesalius d|p 29. 10. 2016, 11:03 (CEST)
Dle mě určitě, k tomu Wikidata jsou :). --Martin Urbanec (diskuse) 29. 10. 2016, 11:07 (CEST)
@Wesalius, Martin Urbanec: Dovedu si to teoreticky představit například u památných stromů nebo u maloplošných chráněných území jimiž se zabývám, ale jistě jsou i další příklady. Diskutoval jsem na toto téma (zavádění Listeria tabulek) s wikipedisty ze zahraničí a jsou tam dvě úskalí: 1) Je potřeba zajistit nejen, aby tabulky byly editovatelné z Wikipedie (příklad: zde, aby šlo přidávat obrázky), ale hlavně, aby se ty obrázky pravidelně přenášely do Wikidat, protože jinak edits made within the list area will be removed on the next update!. 2) Do tabulek generovaných z Wikidat nemůžeme vkládat informace které na Wikidatech nemáme. Ze seznamů maloplošných chráněných území by tedy zmizely např. popisy území. To velmi zužuje náš operační prostor. Prakticky mě nenapadá tabulka, kde by všechna data šlo generovat z Wikidat.
Jako zajímavější střední variantu vidím zpracování tabulek pomocí šablon, jako tomu je v seznamech kulturních památek, např. Seznam kulturních památek v Českém Krumlově. V těchto šablonách je možné zavést přebírání některých parametrů z Wikidat, pokud k památce přiřadíme číslo příslušné položky (to, že v současné chvíli nejsou kulturní památky na Wikidatech, je jiná kapitola a řešíme to). Ale samotný update počtu památek v jednotlivých článcích bude potřeba bez Listeria bota dělat ručně... Výhoda šablon je nicméně to, že se dají snadno číst roboticky a data (např. přidané obrázky či Commons kategorie) pravidelně přenášet do Wikidat. Umí to třeba Harvest Templates, není na to potřeba znalost programování robotů --Vojtěch Dostál (diskuse) 29. 10. 2016, 11:20 (CEST)

ORES a CopyPatrol[editovat zdroj]

Na wmf blogu vyšel článek o tomhle nástroji. Stejně jako výše zmíněný ORES se zdá jako značně užitečný nástroj pro patrolu a odhalování copyvií. Tyto 2 nástroje spolu spolupracují, protože ORES pomáhá po "vycvičení" stanovit pravděpodobnost, že editace je "škodlivá". Zprovoznit oba na cs.wiki by neměl být snad až takový problém, pro CopyPatrol bychom následovali kroků fr.wiki. Podporujete zavedení těchto nástrojů na cs.wiki? Pomohli byste s případným nasazováním? --Wesalius d|p 8. 11. 2016, 15:00 (CET)

ProPro Pro Obdobu CopyPatrol (jestli je to teda automatické hledání copyvií) uvažuji vymyslet sám (ono s API vracejícím pravděpodobnost to nemusí být až tak velký problém, [4]), když to za mě udělala WMF, tím líp. A ORES podporuji taky, čím snadnější práce pro patroláře, tím víc času mají na psaní, teoreticky. --Martin Urbanec (diskuse) 8. 11. 2016, 20:15 (CET)A pokud budu umět, pomůžu i s nasazením --Martin Urbanec (diskuse) 8. 11. 2016, 20:15 (CET)
@Martin Urbanec: Tiež som sa o to pár rokov dozadu pokúsil: sk:Redaktor:TeslaBot/Copyvio Watchdog. Vtedy ešte bez účelového API, tzn. extrakciu vohodných fráz zo skúmanej revízie pre vyhľadávač, volanie vyhľadávača a klasifikáciu na základe výskytov bolo treba riešiť custom. V prostredí malej wiki to funguje uspokojivo (je to nacronované na externej mašine, RC prírastky to konktroluje s periódou 2 min.; za 4,5 roka to na skwiki nahlásilo ~1 800 zhôd, väčšina sú relevantné copyviá), hlavné obmedzenie tam bol limit na počet denných volaní Google Custom Search API v bezplatnom režime. Ten Earwigov detektor, ku ktorému je to spomínané API, má toto predpokladám ošetrené (tzn. buď platené konto alebo požiadal o výnimku). --Teslaton (diskuse) 8. 11. 2016, 20:56 (CET)
Má placené konto (placené Nadací), rozpočet na rok je tuším patnáct tisíc dolarů... S Googlem o tomhle nebyla řeč (výjimce), Nadace zkoušela i Microsoft (prý samotné užití je porušení jejich terms of use, kvůli bodě zakazujícím zakazování zobrazení reklamy, jenže je pitomost porovnávat copyvio z reklamní URL) a Yahoo bylo používané ke spokojenosti všech, než API zrušili. --Martin Urbanec (diskuse) 8. 11. 2016, 21:09 (CET)
Úprava dle nalezených informací (phab:T125459), rozpočet je (byl?) patnáct tisíc dolarů, v případě nižšího užití jako do té doby (300 000 queries měsíčně jen pro ten copyvios tool + jakýsi bot k tomu, pak je ještě jiný bot), jinak by to stálo ještě o tři tisíce dolarů víc (pokud by bylo užití stejné). --Martin Urbanec (diskuse) 8. 11. 2016, 21:13 (CET)
Hej, na väčšej wiki musí byť pri prechádzaní všetkých netriviálnych prírastkov v RC počet volaní vyhľadávača nezanedbateľný. Na skwiki pri konzervatívnom nastavení watchdogu (max 4 testované frázy na vyhovujúci netriviálny edit) po väčsinu času s odretými ušami stačí tých 100 dotazov denne, čo je v rámci CSE free... --Teslaton (diskuse) 8. 11. 2016, 21:20 (CET)

Jaký je nejvhodnější postup?

  • Zažádat na phabricatoru o povolení -> odzkoušet -> sdělit komunitě?
  • Sdělit komunitě (Technická Lípa) -> zažádat na phabricatoru -> sdělit širší komunitě?
  • jiný?

--Wesalius d|p 9. 11. 2016, 12:03 (CET)

Navrhuji Získat konsensus komunity -> Request na phabu -> odzkoušet -> if chyba, request na phabu, else sdělit "nasazeno" komunitě --Martin Urbanec (diskuse) 9. 11. 2016, 12:17 (CET)
  1. Získat konsensus komunity - v procesu --Wesalius d|p 17. 11. 2016, 07:30 (CET)
  2. Request na phabu - T151611 a T151609 --Wesalius d|p 25. 11. 2016, 08:47 (CET)
  3. odzkoušet
  4. if chyba, request na phabu, else sdělit "nasazeno" komunitě

--Wesalius d|p 17. 11. 2016, 07:30 (CET)