Jazykový korpus

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka, který slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů a pod. V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu.

Popis[editovat | editovat zdroj]

Korpusy slouží zejména jako lexikologický a lexikografický nástroj a stávají se mj. zdrojem pro zpracování jednojazyčných výkladových slovníků a automatických korektorů nebo vícejazyčných překladových slovníků a automatických překladačů.

Texty jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod.), o zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech. Pro formátování textů a vkládání značek se používá zejména standardizovaného jazyka XML, případně staršího SGML.

Rozdělení korpusů[editovat | editovat zdroj]

Referenční korpus je stálý, takže opakované dotazy dávají vždy stejné výsledky. Naproti tomu nereferenční korpus je průběžně aktualizován, obvykle jednou ročně.

Některé korpusy jsou budovány jako vyvážené, což znamená, že by měly obsahovat vyvážený podíl textů tříděných podle žánrovosti, doby vzniku, případně dalších hledisek (mluvenost, psanost, regionálnost, užívanost apod.).

Synchronní korpusy jsou budované jako reprezentativní a vyvážené otisky jazyka v určitém relativně krátkém časovém období, během něhož lze považovat jazyk za neměnný systém. Většinou se jedná o korpusy současného jazyka. Diachronní korpusy zachycují jazyk v různých vývojových fázích a obsahují tudíž texty z rozsáhlejších období.

Podle dalšího kritéria rozlišujeme také korpusy jednojazyčné a vícejazyčné. Vícejazyčný korpus se také nazývá paralelní korpus a obsahuje vedle sebe stejné texty v různých jazycích.

Korpusy češtiny[editovat | editovat zdroj]

Budováním korpusů českého jazyka se v České republice zabývá Ústav Českého národního korpusu při Filozofické fakultě UK, který založil lingvista František Čermák. Také jiná univerzitní pracoviště budují vlastní korpusy, např. Centrum zpracování přirozeného jazyka při Fakultě informatiky Masarykovy univerzity.

Odkazy[editovat | editovat zdroj]

Související články[editovat | editovat zdroj]

Externí odkazy[editovat | editovat zdroj]