Paralelní korpus

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Paralelní korpus nebo také vícejazyčný korpus obsahuje stejné texty v různých jazycích zobrazené vedle sebe. Slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové aplikace, překladatele i veřejnost[1]. Nejen vytváření korpusů je úkolem korpusové lingvistiky.

Paralelní korpus může být zarovnaný manuálně, v tom případě je jistota, že věta odpovídá větě (možné je i zarovnání na úrovni slov, odstavců, …). Zarovnání lze provést také automaticky, avšak v těchto případech není jisté, že v konkordanci bude sedět věta ku větě.

Dělí se na korpusy srovnatelné a korpusy překladové. Srovnatelné paralelní korpusy se snaží o to, aby všechny jazyky byly na stejné úrovni, a to jak po stránce kvantitativní, tak po stránce kvalitativní. Překladové paralelní korpusy jsou složeny z originálů a překladů, které jsou vzájemně zarovnány[2]. Mezi takovéto korpusy patří také korpus InterCorp vytvářený v ČNK.

InterCorp[editovat | editovat zdroj]

Na Filozofické fakultě Univerzity Karlovy v rámci Ústavu Českého národního korpusu je budován paralelní korpus InterCorp. Cílem tohoto korpusu je vytvořit synchronní korpus pro všechny jazyky na filozofické fakultě. Využívá poziční systém značkování.

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty, které jsou označovány jako jádro. Kromě toho korpus obsahuje také množství automaticky zpracovaných textů, tzv. kolekce. Kolekce se skládají publicistických a právnických textů a filmových titulků. Objem textů, obsah, anotace i počet zařazených jazyků se s každou verzí zvyšuje.

Vývoj InterCorpu[editovat | editovat zdroj]

První stabilní verze (označená jako verze 0) byla vydána v roce 2008[3] s celkovým počtem 25 milionů slov v 19 různých jazycích. Ani jeden z jazyků neměl označkované ani lemmatizované texty. Přístupná byla pomocí rozhraní Park.

O rok později, v dubnu 2009[4], následovala verze 1. Tato verze měla již 34,4 milionů slov ve 505 textech. Počet jazyků se o jeden zvýšil na 20, přičemž došlo k označkování deseti z nich a lemmatizaci sedmi.

Ten samý rok v říjnu byla zveřejněna další verze 2, rozšířená na 49,2 milionů slov v 572 textech[5]. Ke korpusům byly přidány automaticky zarovnané texty z Project Syndicate. Jedná se výběr publicistických článků z webových stránek projektu. Texty jsou v češtině, angličtině, francouzštině, němčině, ruštině a španělštině z let 2000 až 2008. Počet jazyků InterCorpu se opět zvýšil o jedna na počet 21, přičemž počet značkovaných a lemmatizovaných jazyků zůstal stejný.

Třetí verze InterCopu byla zveřejněna v únoru 2011[6]. Česká verze textu, ať už originál, nebo překlad je používána jako základ, tzv. pivot, a cizojazyčné texty jsou zarovnané podle ní. Zvýšil se počet slov na dohromady 72,2 milionů ve 943 textech (+ další texty z Project Syndicate). Počet jazyků se zvýšil o jeden na 23 a zvedl se i počet označkovaných jazyků na 13 a lemmatizací prošlo 10 jazyků. Verze 3.1 obsahovala pouze vylepšení rozhraní Park.

Čtvrtá verze byla zveřejněna v září 2011[7] . Data byla rozšířena o další publicistické texty ze serveru Presseurop, které byly rovněž zarovnány pouze automaticky. Počet slov se zvýšil na 92,2 milionů zarovnaných slov, přičemž 2,3–3 miliony jsou z Project Syndicate a zhruba 800 tisíc slov ze serveru Presseurop.

V páté verzi, která vyšla v červnu 2012[8], došlo k rozdělení textů na jádro a kolekce. V rámci jádra bylo k dispozici 91,5 milionů ručně zarovnaných beletristických textů. Kolekcí se rozumí automaticky zarovnané texty. V této verzi byly použity publicistické články ze stránek Project Syndicate a Presseurop a také právnické texty Acquis Communautaire s celkovým počtem 451,1 milionů slov.

Šestá verze, vydaná v dubnu 2013, rozšířila InterCorp na 138,7 milionů slov v jádru a 728,5 milionů slov v kolekcích[9]. Přidány byly dva nové balíky textů – beletristické texty z korpusu ASPAC (Amsterdam Slavic Parallel Aligned Corpus) a texty z jednání Evropského parlamentu (korpus EuroParl). Počet jazyků se zvýšil na 31.

Sedmá verze přináší změnu rozhraní. Ze staršího rozhraní Park a NoSketch Engine se plně přešlo na rozhraní KonText[10], které umožňuje hledat v současné verzi korpusu, ale i v těch předchozích. Přineslo také možnost filtrování textů a funkci promíchání konkordančních řádků. Verze 7 byla vydána v prosinci 2014. Celkový počet slov v cizojazyčných textech se zvýšil na 173 milionů v jádru a 1 217 milionů v kolekcích, přičemž počet jazyků vzrostl na 38. Mezi kolekce byl přidán další balík textů, tentokrát filmové titulky z databáze Open Subtitles, které mají do korpusu přidat hovorové varianty jazyka. České texty jsou značkovány pozičním systémem, stejně jako zbytek korpusů ČNK.

Osmá verze InterCorpu byla zveřejněna v červnu 2015[11]. Kompletně se upustilo od rozhraní Park a hledání je přístupné již jen přes KonText. Zveřejněna je také nová aplikace Treq, která umožňuje vyhledávat překlad jednotlivých slov, lemmat nebo forem. Výsledky zobrazuje spolu s frekvencí výskytu. Celkový počet slov v cizojazyčných textech vzrostl na 194 milionů v jádru a 1 229 milionů v kolekcích.

Devátá verze InterCorpu vyšla v září 2016[12]. Počet jazyků v korpusu vzrostl na 39. Celkový počet slov v cizojazyčných textech byl v jádru rozšířen na 232 milionů. Počet slov v kolekcích zůstal stejný. Ve vyhledávacím rozhraní došlo k řadě menších vylepšení a odstranění chyb. Popis značkovací sady daného jazyka je nyní přístupný přes rozhraní Kontext. Dále došlo ke sjednocení jmen a autorů v rámci jednoho jazyka a byla zajištěna lepší reprezentativnost napříč jazyky díky novému způsobu plánování textů.

KAČENKA[editovat | editovat zdroj]

V rámci Katedry anglistiky na Filozofické fakultě Masarykovy univerzity vznikl malý paralelní korpus s názvem KAČENKA (Korpus anglicko-český, elektronický nástroj Katedry anglistiky), který měl za úkol podpořit výzkum a výuku v oblasti překladu a umožnit při překladech práci s celými texty, ne jen s malými výtažky. Zároveň mířil za získáním zkušeností, které by se dali později využít při budování většího paralelního korpusu češtiny a angličtiny v budoucnu.

Původní verze je z roku 1997, projekt KAČENKA 2 navázal v letech 2002–2003. Ačkoliv již bylo dosaženo hlavních cílů projektu, korpus KAČENKA se neustále rozrůstá. Korpus obsahuje přibližně 3,3 miliony slov, z nichž zhruba polovina byla získána skenováním. Projekt řídí vyučující Jiří Rambousek a Jana Chamonikolasová spolupracující se studenty.

Většina textů pochází z beletrie. Většina anglických textů se pro Kačenku získala z internetových zdrojů. Zbytek, tedy téměř všechny české texty, musel být naskenován s použitím OCR programu ProLector 1.2 firmy Improx. Poté byly texty seřazeny, aby v obou jazycích byly na stejných pozicích. Korpus Kačenka nevyužívá žádné korpusové manažery, je uložen jako klasický text a vejde se na jeden CD-ROM disk.

CzEng[editovat | editovat zdroj]

CzEng je česko-anglický paralelní korpus, který je budován Ústavem formální a aplikované lingvistiky na Matematicko-fyzikální fakultě Univerzity Karlovy. Jeho první zveřejněná verze (CzEng 0.5[13]) vznikala v letech 2005–2006. Korpus byl primárně tvořen volně dostupnými elektronickými dokumenty, které nejsou pod ochranou autorských práv. Všechny texty byly opatřeny automatickým zarovnáním vět. Hlavním cílem bylo poskytnutí potřebných dat pro podporu vývoje česko-anglického a anglicko-českého strojového překladu. Pátou a zatím poslední zveřejněnou verzí z roku 2016 je CzEng 1.6[14], která aktualizuje a rozšiřuje kolekci zdrojových dat. Korpus je opatřen bohatou automatickou anotací a poskytuje uživatelům nástroje potřebné k replikaci automatické anotace na další data.

Obsah textových dokumentů v korpusu tvoří filmové titulky, paralelní webové stránky, dále například texty z oblastí evropského práva, informačních technologií či fikce. Primárním formátem korpusu je Treex XML (texty jsou uloženy ve formátu XML, který je zpracováván za pomoci platformy treex). CzEng byl již úspěšně použit v několika experimentech zabývajících se zpracováním přirozeného jazyka. Je volně dostupný ke stažení a k použití pro nekomerční vědecké a pedagogické účely.

Česko-německý paralelní korpus[editovat | editovat zdroj]

Vznik Česko-německého paralelního korpusu byl iniciován katedrou německého jazyka a literatury Pedagogické fakulty Masarykovy univerzity v Brně. Hlavní motivací pro jeho vybudování byla především nezbytnost korpusu tohoto typu pro kontrastivní výzkum a výuku obou jazyků.

Budování korpusu bylo zahájeno v červnu 2001 a jeho první verze byla interně zpřístupněna v roce 2002 na serveru Fakulty informatiky Masarykovy univerzity. Korpus byl dále rozšiřován (přibližně o 200 000 slov ročně) až do roku 2005, kdy byla zpřístupněna poslední verze. Od téhož roku je korpus také součástí projektu InterCorp. V současné době se databáze již nerozšiřuje.

Česko-německý paralelní korpus je korpus synchronní a nespecifický (obecný). Obsahuje texty všech typů a stylových norem vzniklých převážně po roce 1950 (v případě nebeletristických textů pak všechny po roce 1990). V rámci typů textů byl kladen důraz na vyváženost (25 % publicistika, 25 % odborné texty a 50 % beletrie). Je morfologický anotovaný a opatřený metainformacemi. Pro zařazení textů do korpusu byla klíčová jejich dvojjazyčnost (české či německé originální texty a jejich překlady). Poměr obou jazyků by v poslední verzi měl být 1:1. Ve skutečnosti mírně převažují české originální texty (63 %)[15].

PCEDT[editovat | editovat zdroj]

Pražský česko-anglický závislostní korpus (Prague Czech-English Dependency Treebank) je ručně anotovaný paralelní korpus vybudovaný Ústavem formální a aplikované lingvistiky na Matematicko-fyzikální fakultě Univerzity Karlovy. Jeho základ tvoří zhruba 1 mil. slov z tzv. Penn Treebanku, korpusu obsahujícího texty z Wall Street Journalu anotované frázovými stromy. Jeho databáze slov byla přeložena do češtiny, zarovnána s originálem a obě strany byly anotovány pražskými závislostními stromy.

Zatím poslední verze PCEDT 2.0 zahrnuje okolo 1,2 milionu slov v téměř 50 000 větách pro každou část. Česká část je volně dostupná ke stažení či prohlížení na webových stránkách Ústavu formální a aplikované lingvistiky, anglická část kvůli obsahu z původního Penn Treebanku vyžaduje získání licence[16].

Některé zahraniční paralelní korpusy[editovat | editovat zdroj]

EuroParl[editovat | editovat zdroj]

Europarl je paralelní korpus složený ze zápisů jednání z Evropského Parlamentu, které jsou přístupné online. Korpus obsahuje verze v 21 různých evropských jazycích: románské (francouzština, italština, španělština, portugalština, rumunština), germánské (angličtina, nizozemština, němčina, dánština, švédština), slovanské (bulharština, čeština, polština, slovenština, slovinština), ugrofinské (finština, maďarština, estonština), baltské (litevština, lotyština) a řečtina.[17]

Vývoj[editovat | editovat zdroj]

Data z jednání EP se sbírají od roku 1996 do současnosti. První vydání korpusu proběhlo v roce 2001 a zahrnovalo 11 oficiálních jazyků z té doby. S politickým růstem EU rostl i počet oficiálních jazyků, které byly později přidány do korpusu, proto jsou nově přidané jazyky v korpusu méně obsáhlé, než ty které v něm byly zahrnuty od začátku.

Zatím poslední vydaná verze korpusu je již sedmá v pořadí. Byla vydána 15. 5. 2012 jako zdrojové vydání s dokumenty a větným seřazovačem a jako paralelní korpus s jazykovými páry vždy jeden v angličtině. Korpus může obsahovat až 60 miliónů slov pro jeden jazyk, tyto počty však platí pro původní jazyky obsažené v Europarlu.[17]

Získávání dat[editovat | editovat zdroj]

Data se získávají z webových stránek Evropského Parlamentu a poté jsou připravována pro lingvistický výzkum. Po rozčlenění textů na věty a tokenizaci jsou věty zarovnány napříč všemi jazyky pomocí algoritmu Gale-Churchova srovnávacího algoritmu. Princip algoritmu je takový, že ekvivalentní věty by si měly přibližně odpovídat v délce, čím delší v jednom jazyce, tím delší by měla být i v jazyce druhém.

Korpus je tvořen a rozšiřován skupinou výzkumníků vedenou Philippem Koehnem na Edinburské univerzitě. Původně byl navržen pro výzkumné potřeby statistického strojového překladu (SMT), později byl však použit na množství dalších výzkumů, například ve word-sense desambiguaci, kdy se zkoumá, jaký význam má slovo použité ve větě, když je vícevýznamové.

Europarl je pro výzkumy ohlědně SMT velice přínosný a užitečný a to právě díky množství jazyků a také díky tomu, že se neomezuje pouze na překlad jazyků do angličtiny, ale i třeba páru jako je řečtina-finština, a to přináší do výzkumu SMT mnoho nových výzev.[18]

CRATER[editovat | editovat zdroj]

CRATER corpus (Corpus Resources and Terminology Extraction) vznikl v 1995[19] rozšířením původně bilingválního korpusu (angličtina–francouzština) o španělštinu. Jedná se o zarovnaný korpus s jedním milionem tokenů, které jsou manuálně morfosyntakticky značkovány[20]. Vytvářen byl ve spolupráci Lancaster University, Univesidad Autonoma de Madrid a C2V of Paris.

Korpus biblických textů[editovat | editovat zdroj]

Na University of Maryland vznikl korpus biblických textů. Motivace byla jednoduchá – Bible je celosvětově rozšířená a také velmi pečlivě přeložená[21].

Multext East[editovat | editovat zdroj]

Korpus Multext East je založen na knize 1984 od George Orwella. Dataset obsahuje morfosyntaktické značkování těchto jazyků: bulharština, chorvatšina, čeština, angličtina, estonština, maďarština, litevština, makedonština, perština, polština, rumunština, ruština, srbština, slovenština, slovinština a ukrajinština.[22]

Hansard[editovat | editovat zdroj]

Hansard je korpus Britského parlamentu, který obsahuje téměř všechny promluvy řečené v Britském parlamentu v letech 1803 až 2005. Korpus je dostupný online a umožňuje v promluvách vyhledávat, i pomocí sémanticky založeného vyhledávání. Takové prohledávání promluv BP není možné najít nikde jinde.

Vývoj[editovat | editovat zdroj]

Korpus byl vytvořen jako část projektu SAMUELS (2014-2016). Skoro 7,6 milionu promluv (od necelých 40 000 různých mluvčích) vytvořilo korpus v roce 2011 v rámci projektu JISC Parliamentary Discourse Jeana Andersona a Marca Alexandera. Texty byla poskytnuty projektu z Millbank Systems a jsou použity pod licencí OPSI Parliamentary Licence. Korpus byl poté vylepšen v projektu SAMUELS, pod vedením doktora Jeana Andersona.[23]

OPUS[editovat | editovat zdroj]

Korpus OPUS je otevřený paralelní korpus, který je tvořen rostoucí kolekcí přeložených textů z webu. Databázi tvoří více než více než 100 různých jazyků a je stále rozšiřována. Korpus je opatřen částečnou morfologickou a syntaktickou anotací, avšak bez jakékoliv manuální kontroly. Hlavním účelem korpusu OPUS je podpora různých oblastí NLP, a to především statistického strojového překladu. Korpus je volně dostupný na svých oficiálních stránkách. Sady paralelních korpusových dat jsou poskytnuty zdarma ke stažení v několika formátech, které mohou být ihned použity pro trénování standardních systémů strojového překladu.[24]

DGT-Translation Memory[editovat | editovat zdroj]

Překladatelské paměti DGT jsou rozsáhlým paralelním korpusem právních textů Evropské unie. Obsah korpusu tvoří zarovnané větné segmenty z manuálně vytvořených překladů pro všech 24 úředních jazyků EU[25]. Data je možno nahrát do CAT softwaru a využívat při překladatelské práci. Využití nalézá i ve statistickém strojovém překladu nebo při tvorbě vícejazyčných slovníků. Celkovou paměť tvoří více než 100 milionů překladových jednotek.

Parasol[editovat | editovat zdroj]

Parasol je paralelní překladový korpus beletristických textů převážně slovanských jazyků. Byl vyvíjen v letech 2016–2013 na Univerzitě v Curychu. Poslední aktualizace korpusu proběhla v roce 2014.

Korpus je zaměřen na poválečně beletristické texty. Kromě slovanských jazyků jsou zde dostupné také texty z francouzštiny, němčiny, angličtiny, italštiny a dalších jazyků. Korpus je opatřen morfosyntaktickou anotací a automatickým zarovnáním. Česká část vznikala ve spolupráci s Ústavem Českého národního korpusu. Parasol je volně přístupný přes webové rozhraní.

K Parasolu bylo vytvořeno i speciální korpusové rozhraní ParaVoz, které je rovněž volně dostupné a může být jednoduše přizpůsobeno i jiným paralelním korpusům.[26]

Glosbe[editovat | editovat zdroj]

Glosbe je online slovník s vyhledávacím rozhraním založený na vícejazyčném paralelním korpusu. Nástroj umožňuje vyhledání zadané fráze v korpusu a přístup k dokladovým větám (konkordancím).[27]

Nunavut Hansard[editovat | editovat zdroj]

Anglicko-inuitský paralelní korpus.[28]

TradooIT[editovat | editovat zdroj]

Anglicko-francouzko-španělský paralelní korpus.[29]

Externí odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. Intercorp. ucnk.ff.cuni.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  2. Paralelní korpus - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  3. Historie verzí InterCorpu: verze 0 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  4. Historie verzí InterCorpu: verze 1 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  5. Historie verzí InterCorpu: verze 2 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  6. Korpus InterCorp verze 3 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  7. Korpus InterCorp verze 4 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  8. Korpus InterCorp verze 5 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  9. Korpus InterCorp verze 6 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  10. Korpus InterCorp verze 7 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  11. Korpus InterCorp verze 8 - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2016-09-04]. Dostupné online. 
  12. cnk:intercorp:historie - Příručka ČNK. wiki.korpus.cz [online]. [cit. 2017-04-02]. Dostupné online. (česky) 
  13. CzEng 0.5 (Czech-English Parallel Corpus, version 0.5). ufal.mff.cuni.cz [online]. [cit. 2017-04-09]. Dostupné online. 
  14. CzEng | ÚFAL. ufal.mff.cuni.cz [online]. [cit. 2017-04-09]. Dostupné online. (anglicky) 
  15. MU, tým redaktorů pedagogické fakulty. Pedagogická fakulta MU - Aktivity - Česko-německý paralelní korpus. www.ped.muni.cz [online]. [cit. 2017-06-15]. Dostupné online. (česky) 
  16. Nástroje ÚFAL | ÚFAL. ufal.mff.cuni.cz [online]. [cit. 2017-06-17]. Dostupné online. (anglicky) 
  17. a b Europarl Parallel Corpus. www.statmt.org [online]. [cit. 2016-09-18]. Dostupné online. 
  18. KOEHN, Philipp. Europarl: A parallel corpus for statistical machine translation. In: MT summit. 2005. p. 79-86.
  19. LEECH, G.; MCENERY, A.; OAKES, M. Multilingual corpus resources and tools developed in CRATER. In: Proceedings of the International Workshop on Sharable Natural Language Resources. 1994. p. 86-89.
  20. CRATER corpus. search.language-archives.org [online]. [cit. 2016-09-04]. Dostupné online. 
  21. University of Maryland Parallel Corpus Project: Bible. www.umiacs.umd.edu [online]. [cit. 2016-09-04]. Dostupné online. 
  22. DIMITROVA, Ludmila, et al. Multext-east: Parallel and comparable corpora and lexicons for six central and eastern european languages. In: Proceedings of the 17th international conference on Computational linguistics-Volume 1. Association for Computational Linguistics, 1998. p. 315-319.
  23. Hansard Corpus: British Parliament, 1803-2005. www.hansard-corpus.org [online]. [cit. 2016-09-18]. Dostupné online. 
  24. OPUS. opus.lingfil.uu.se [online]. [cit. 2017-06-17]. Dostupné online. 
  25. DGT-Translation Memory - ecodp.common.ckan.site_title. data.europa.eu [online]. [cit. 2017-06-17]. Dostupné online. (česky) 
  26. ParaSol - A Parallel Corpus of Slavic and Other Languages. parasolcorpus.org [online]. [cit. 2017-06-17]. Dostupné online. 
  27. On-line slovník s více než 1 000 jazyků a 40 000 000 překladů. Glosbe [online]. [cit. 2017-06-17]. Dostupné online. (anglicky) 
  28. The Nunavut Hansard – Inuktitut-English Parallel Corpus. www.inuktitutcomputing.ca [online]. [cit. 2017-06-17]. Dostupné online. 
  29. TradooIT - Concordancier bilingue. www.tradooit.com [online]. [cit. 2017-06-17]. Dostupné online.