Wikipedista:Dinybot/Specifikace

Z Wikipedie, otevřené encyklopedie
Tento uživatelský účet je bot, kterého ovládá uživatel Martin Kozák (diskuse).

Nejedná se o žádný loutkový účet, ale o technický účet, který slouží k automatické nebo poloautomatické editaci Wikipedie. Dřina patří strojům.
Správci, pokud bot nepracuje správně nebo způsobuje potíže, zablokujte jej.

Já, robot. Jmenuji se Dinybot a pro mého majitele, jímž je Martin Kozák, provádím převážně typografické a jazykové korekce. Pracuji převážně v noci na serveru Petra Adámka, celou Wikipedii procházím jednou za měsíc. Na mém zrodu se nejvíce podílel můj majitel a Danny B.

Památce Dinyho[editovat | editovat zdroj]

Diny. Pes. Šestnáctiletý veterán drahé třetiny wikipedisty Chmee2 jenž v noci z 12. na 13. května 2006 odešel na psí věčnost. Ve stejnou noc v jakou jsem se poprvé rozběhl já. Nejsem on, ale přesto po něm zůstane památka. Dokud bude Wikipedie Wikipedií, jméno Diny, myšlenka na něj, bude zanesena v jejích záznamech. A nejen jako tato čtyři písmena, ale i jako editace které jsem provedl a provedu. A nejen v záznamech. Každá editace zanechá svou stopu. Každou editaci přečtou tisíce čtenářů. Každá z nich jim usnadní čtení a ovlivní další myšlenky. To je pěkná památka na mého živého předchůdce.

Nechť se má nahoře ve psím nebi dobře.

Kontakt[editovat | editovat zdroj]

Babylon – informace o uživateli
cs-N Tento uživatel je rodilý mluvčí češtiny.
en-2 This user has intermediate knowledge of English.
hu-0 Ez a szerkesztő nem beszéli a magyar nyelvet (vagy csak nagyon nehezen érti meg).
Wikipedisté podle jazyka
sk-0-3 Tento uživatel slovensky sice rozumí, ale není schopen aktivní komunikace.
pl-0 This user does not understand Polish (or understands it with considerable difficulty).

Mého majitele je možné kontaktovat na mé diskuzní stránce. Kontakt je možný česky, slovensky nebo anglicky. S vyřizování jiných žádostí Vám bohužel nepomůže, takže je třeba obrátit se na velvyslanectví české Wikipedie.

Možné jsou i ostatní kontaktní prostředky:

Provoz[editovat | editovat zdroj]

Běžím na IP adrese 217.197.152.143 (moribundus.bilysklep.cz) vždy poslední den v měsíci od 3:05 středoevropského času. V průběhu jednoho sezení projdu celou českou Wikipedii. Seznam článků podle kterého pracuji průběžně aktualizuji tak jak je vydáván na download.wikimedia.org.

Moji činnost zajišťuje modul replace.py nástroje Python Wikipediabot Framework (verze snapshot-20060312). Jsem tedy tvořen z jazyka Python. Pro analýzu obsahu a náhrady v článku využívám regulární výrazy.

Typografické náhrady[editovat | editovat zdroj]

Výjimky z náhrad[editovat | editovat zdroj]

Při nahrazování se vyhýbám konkrétním úsekům kódu. Chráněny tak jsou:

  • komentáře,
  • tagy <nowiki>,
  • tagy <pre>,
  • tagy <code>,
  • tagy <math>,
  • tagy <timeline>,
  • těla tagů HTML,
  • tabulky,
  • šablony ,
  • vnitřní odkazy,
  • URL,
  • řádky s odsazeným obsahem.

Náhrazování též neprovádím v některých přesně definovaných případech specifických pro jednotlivé náhrady. Viz níže.

Popis náhrad[editovat | editovat zdroj]

Výpustky[editovat | editovat zdroj]

Nejdříve ze všeho nahrazuji „tři tečky“, tzn. znaky '...', za výpustky, tedy znak '…'.

Podmínkou je, že zleva nebo zprava musí za řetězcem '...' následovat alfanumerický znak, na druhé straně tohoto řetězce musí být buď dva až pět apostrofů zvýraznění, mezera, konec, resp. začátek článku, bílý znak, kulatá závorka, uvozovky nebo interpunkční znaménko s výjimkou tečky.

Uvozovky[editovat | editovat zdroj]

Dále provádím náhrady běžných uživatelských uvozovek „z klávesnice“ (znaky "") uvozovkami typografickými, tedy znaky „“.

Zde je systém výjimek složitější. V první řadě nekonvertuji prázdné uvozovky nebo uvozovky s bílými znaky. U těch předpokládám, že mají zvláštní účel a proto tedy zůstavají tak, jak jsou. Další výjimky jsou následující:

  • uvozovky (případně uzavřené v závorkách) jimž volitelně předchází bílý znak a nealfanumerický znak s výjimkou závorek a dalších znaků zleva nebo zprava,
  • uvozovky uzavřené v závorkách jimž volitelně předchází bílý znak a závorky zleva nebo zprava,
  • uvozovky uzavřené v závorkách jimž přímo předchází alfanumerický znak nebo znak mínus zleva nebo zprava.

V průběhu vlastní konverze vybírám pouze takové uvozovky, před kterými je bílý znak, začátek článku, kulatá závorka, případně formátovací apostrofy či výpustky a za nimiž je bílý znak, zkonec závorky nebo interpunkční znaménko.

Viz na Viz[editovat | editovat zdroj]

Třetí náhradou je náhrada chybného tvaru Viz. na viz Respektuje velikost prvního písmene, jedinou podmínkou je bílý znak na každé straně slova.


Čištění kódu[editovat | editovat zdroj]

Společně s náhradami probíhá také čištění kódu prostřednictvím modulu Cosmetic changes.py. Znamená to, že kdykoliv usoudím, že je třeba provést nějakou z náhrad uvedených výše, vyčistím zároveň kód cílového článku. To zahrnuje:

  • seřazení odkazů interwiki podle abecedy, vložení správných velikostí písmen a jejich umístění na správné místo v článku,
  • upravení kategorií článku do správné podoby a jejich umístění tam, kam patří,
  • optimalizaci wikiodkazů tak, aby byly při zachování funkčnosti co nejpřehlednější a nejkratší,
    [[tranzistor|tranzistorům]] -> [[tranzistor]]ům
  • překlad názvů jmenných prostorů do češtiny a vložení správných velikostí písmen,
    [[Image:Roasted coffee beans.jpg]] -> [[Soubor:Roasted coffee beans.jpg]]
  • převod entit HTML na odpovídající znaky kódování Unicode,
  • odstranění nadbytečných bílých znaků.

Náhrady přesměrování[editovat | editovat zdroj]

Třetím úkolem je náhrada některých odkazů na přesměrování, tedy například:

  • [[ČVUT]] -> [[České vysoké učení technické v Praze|ČVUT]]
  • [[ČVUT|vysoké škole]] -> [[České vysoké učení technické v Praze|vysoké škole]]

Aktuální seznam nahrazovaných přesměrování je k dispozici na podstránce /Náhrady přesměrování. Veškeré návrhy na další náhrady odkazů umísťujte, prosím, do její diskuze.