Ústav Českého národního korpusu

Z Wikipedie, otevřené encyklopedie

Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze, zkr. ÚČNK, vytváří a spravuje Český národní korpus a vedle vědy a výzkumu se věnuje též výuce a podpoře uživatelů Českého národního korpusu a paralelních korpusů řady InterCorp.

Struktura

Ředitelem ústavu je Mgr. Michal Křen, Ph.D.

Ústav je rozčleněn na následující sekce:[1]

  • Lingvistická (vedoucí Mgr. Anna Čermáková, Ph.D.)
  • Komputační (vedoucí Mgr. Pavel Vondřička, Ph.D.)
  • Mluvené korpusy (vedoucí PhDr. Marie Kopřivová, Ph.D.)
  • Diachronní korpusy (vedoucí Mgr. Martin Stluka, Ph.D.)
  • Lingvistická analýza a anotace (vedoucí Mgr. Tomáš Jelínek, Ph.D.)[1]
  • Paralelní korpusy (vedoucí Ing. Alexandr Rosen, PhD.)[1]

Činnost

Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s jinými jazyky (paralelní korpusy).

S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant SyD) a podpora uživatelů.

Řady korpusů

V současnosti projekt ČNK spravuje následující řady korpusů:

Korpusy psané současné češtiny o celkovém rozsahu 1300 milionů textových slov jsou referenční (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a reprezentativní (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny)

  • SYN2000 - 100 mil.,žánrově vyvážený korpus, převažují texty z let 1990 - 1999
  • SYN2005 - 100 mil., žánrově vyvážený korpus, převažují texty z let 2000 - 2004
  • SYN2006PUB - 300 mil., korpus publicistických textů z let 1989 - 2004
  • SYN2009PUB - 700 mil., korpus publicistických textů z let 1995 - 2007
  • SYN2010 - 100 mil., žánrově vyvážený korpus, převažují texty z let 2005 - 2009

Korpusy mluvené češtiny o celkovém objemu cca 3 miliony textových slov. Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus ORAL2008, pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Připravované rozhraní zpřístupní i anonymizované zvukové nahrávky.

  • Pražský mluvený korpus
  • Brněnský mluvený korpus
  • Oral2006
  • Oral2008

Korpus diachronní (DIAKORP)

Korpusy paralelní (InterCorp) zahrnující překladové ekvivalenty českých textů do více než dvaceti jazyků.[2]

Publikace

ÚČNK dlouhodobě spolupracuje s Nakladatelstvím Lidové noviny,[3] kde mj. vydává řadu Studie z korpusové lingvistiky. Dále vyšlo:

  • Frekvenční slovník češtiny (NLN, 2004)
  • Frekvenční slovník mluvené češtiny (Karolinum, 2007)
  • A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011)
  • Mluvnice současné češtiny (Karolinum, 2010)

Ke stažení jsou zpřístupněny abecední a retrográdní slovníky, založené na korpusech řady SYN.

Historie

Ústav Českého národního korpusu byl založen 9. září 1994. Pravidelnou činnost vyvíjí od 1. října 1996, kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000.[4]

Reference

Externí odkazy