WordNet

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

WordNet je lexikální databáze pro anglický jazyk vyvíjená od roku 1985 týmem okolo profesora psychologie George Armitage Millera v laboratoři kognitivních věd na Princetonské univerzitě.[1] Obecněji se jako WordNet, případně přesněji lexikální databáze typu WordNet či také sémantická síť typu WordNet, označují i příbuzné projekty týkající se jiných jazyků (např. Český WordNet). Původní anglická databáze pak v takovém kontextu bývá někdy pro rozlišení nazývána princetonský WordNet.

WordNet seskupuje slova do synonymických řad zvaných synsety (anglicky synsets), poskytuje krátké obecné definice jejich významu a zachycuje různé sémantické vztahy, které mezi synsety existují. To činí WordNet jakýmsi intuitivněji použitelným křížencem slovníku a tezauru a současně jazykovým zdrojem využitelným v aplikacích v oblastech zpracování přirozeného jazyka a umělé inteligence. Data princetonského WordNetu a související programové vybavení byly uvolněny licencí typu BSD a jsou poskytovány k bezplatnému stažení a použití. Databázi je také možno konzultovat on-line prostřednictvím internetu.

Obsah databáze[editovat | editovat zdroj]

Rozsah[editovat | editovat zdroj]

Nejnovější verze WordNetu je 3.1. Ve verzi 3.0 obsahuje databáze 155.287 slov uspořádaných do 117.659 synsetů, čímž je pokryto 206.941 slovních významů (dvojic slovo-smysl). V komprimované formě mají data velikost okolo 12 megabytů.[2]

Synsety[editovat | editovat zdroj]

WordNet zahrnuje podstatná jména, slovesa, přídavná jména a příslovce, ale vzhledem k jejich odlišným gramatickým vlastnostem uchovává data pro každý z těchto slovních druhů odděleně. Jiné slovní druhy jako jsou zájmena či předložky nejsou součástí databáze. Každý synset se skládá z jednoho či více slov nebo slovních spojení stejného slovního druhu (slovním spojením je skupina slov nesoucí specifický ustálený význam, např. "babí léto"). Následuje ukázka několika synsetů různých typů z Českého WordNetu:[3]

Polysémie[editovat | editovat zdroj]

U homonym a obecně slov s více významy (polysémických) náleží každý význam do jiného synsetu a jednotlivé významy téhož slova jsou v takovém případě v rámci téhož slovního druhu od sebe odlišovány tzv. číslem smyslu uváděným za znakem dvojtečka. Význam synsetu bývá také často popsán prostřednictvím glosy (tj. definice a/nebo příkladu použití). Identifikaci významu synsetu napomáhají také sémantické vztahy, např. u podstatných jmen příslušný nadřazený pojem. Příkladem víceznačného slova je "koruna":

  • koruna:1 = "ozdoba hlavy kruhového tvaru, odznak panovnické hodnosti"
  • koruna:2 – nadřazeným pojmem je synset "mince:1, peníze:1, penízek:1"
  • koruna:3 – nadřazeným pojmem je synset "hořejšek:1, vrch:1"

Sémantické vztahy[editovat | editovat zdroj]

Sémantickými vztahy je s jinými synsety propojena velká část synsetů ve WordNetu. Typy těchto vztahů se liší v závislosti na slovním druhu. Jedná se mj. o sémantické vztahy těchto typů:

  • Mezi podstatnými jmény:
    • nadřazený pojem: Y je nadřazeným pojmem k X, jestliže každé X je (druhem) Y (psovitá šelma je nadřazeným pojmem k pes, protože každý pes je členem obecnější kategorie psovitých šelem)
    • podřazený pojem: Y je podřazeným pojmem k X, jestliže každé Y je (druhem) X (pes je podřazeným pojmem k psovitá šelma)
    • souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (vlk je souřadným pojmem k pes; obdobně pes je souřadným pojmem k vlk)
    • holonymum (vztah celek-část): Y je holonymem k X, jestliže X je (sou)částí Y (budova je holonymem k okno)
    • meronymum (vztah část-celek): Y je meronymem k X, jestliže Y je (sou)částí X (okno je meronymem k budova)
  • Mezi slovesy:
    • nadřazený pojem: sloveso Y je nadřazeným pojmem ke slovesu X, jestliže činnost X je (druhem) Y (vnímat je nadřazeným pojmem k poslouchat)
    • troponymum: sloveso Y je troponymem ke slovesu X, jestliže Y znamená dělat X nějakým způsobem (šeptat je troponymem k mluvit)
    • vyplývání (entailment): sloveso Y vyplývá ze slovesa X, jestliže pro dělání X je nutné současně dělat Y (spát vyplývá z chrápat)
    • souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (šeptat je souřadným pojmem k křičet; obdobně křičet je souřadným pojmem k šeptat)
  • Mezi přídavnými jmény:
    • příbuzné podstatné jméno
    • podobnost
    • sloveso k příčestí
  • Mezi příslovci:
    • příbuzné přídavné jméno

Zatímco sémantický vztah platí pro všechna slova ze synsetu, kterého se týká, protože tato slova jsou si navzájem synonymická a sdílejí společný význam, lexikálními vztahy je možné propojovat mezi sebou jednotlivá slova a zachytit tak např. vztah antonymie (opaku).

Český WordNet[editovat | editovat zdroj]

Lexikální databáze typu WordNet pro český jazyk pod názvem Český WordNet (anglicky Czech WordNet) je od roku 1998 vyvíjena v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně. Vývoj započal v rámci druhé fáze projektu EuroWordNet a pokračoval dále v rámci projektu BalkaNet, společně s vývojem podobných databází pro některé další evropské jazyky. Za účelem propojení lexikálních databází pro různé jazyky byl zaveden tzv. Inter-Lingual Index (zkratka ILI), který každému anglickému synsetu v princetonském WordNetu přiřazuje unikátní identifikátor (odvozený z jeho pozice v dané verzi databáze); synsety v neanglických databázích jsou pak doplněny o ILI-identifikátor ekvivalentního synsetu anglického.

Základních 1016 konceptů Českého WordNetu bylo nalezeno počítačovou analýzou definic ve Slovníku spisovné češtiny, další slova byla získána ze slovníku Lingea Lexicon a z připravovaného Výkladového slovníku češtiny. První verze Českého WordNetu nakonec v roce 1999 obsahovala asi 13 až 15 tisíc synsetů.[4]

Ve stavu z května 2011 obsahuje Český WordNet již 34.026 slov uspořádaných do 28.478 synsetů, což pokrývá 47.542 slovních významů (dvojic slovo-smysl). Ze synsetů je 21.018 (74 %) substantivních, 5162 (18 %) synsetů slovesných, 2129 (7 %) synsetů adjektivních a pouze 166 (1 %) synsetů adverbiálních. Synsety Českého WordNetu jsou prostřednictvím ILI propojeny se starší verzí princetonského WordNetu 2.0. Slovesné synsety jsou od roku 2005 vytvářeny z větší části odděleně v rámci databáze valenčních rámců VerbaLex (v květnu 2011 obsahovala asi 20.000 slovesných rámců).[5]

V rámci diplomové práce obhájené na Fakultě informatiky Masarykovy univerzity v červnu 2011 byl proveden pokus o rozšíření Českého WordNetu překladem anglických slov ze stávajících synsetů princetonského WordNetu prostřednictvím Velkého anglicko-českého slovníku Josefa Fronka. Výsledkem bylo 36.228 přidaných slovních významů (dvojic slovo-smysl) a 12.403 vytvořených synsetů, což znamená rozšíření původních dat o 76 % (slovní významy), resp. 43 % (synsety). Tato data však dosud nebyla zahrnuta do Českého WordNetu, i vzhledem k nutnosti jejich manuální kontroly.[5]

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku WordNet na anglické Wikipedii.

  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
  2. WordNet Statistics
  3. V rámci tohoto českého článku o lexikální databázi WordNet na České Wikipedii jsou pro větší názornost používány příklady užívající českých slov a pocházejí z databáze Český WordNet.
  4. Pala, Karel a Ševeček, Pavel. The Czech WordNet, final report. Brno : Masarykova univerzita, 1999, 21 s., technická zpráva.
  5. a b Blahuš, Marek. Extending Czech WordNet Using a Bilingual Dictionary. Brno : Masarykova univerzita, Fakulta informatiky, 2011. 42 s. Magisterská práce. Vedoucí: doc. PhDr. Karel Pala, CSc..

Externí odkazy[editovat | editovat zdroj]