Zpracování přirozeného jazyka

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Počítačové zpracování přirozeného jazyka (Natural language processing, NLP, též počítačová lingvistika neboli computational linguistics) je obor na pomezí lingvistiky, informatiky (umělé inteligence), popř. též akustiky a dalších. Zkoumá problémy analýzy či generování textů nebo mluveného slova, které vyžadují určitou (ne absolutní) míru porozumění přirozenému jazyku strojem.

Významné úkoly v NLP:

Zpracování přirozeného jazyka[editovat | editovat zdroj]

Přirozeným jazykem se rozumí jazyk, kterým se dorozumívají lidé mezi sebou. Přirozený jazyk je jazyk, který se neustále vyvíjí a pravidla vyplývají ze zaběhnutého postupu a zvyklostí, takže nemusí být formálně stanovena. Jazyk je předmětem zájmu vědní disciplíny „lingvistika“

  • Lingvistika - Úkolem lingvistiky stejně tak jako lingvistů je objasnění faktu, že interpreti textu využívají jazyka ke sdělování a předávání nějakých informací jeden druhému o jevech vnitřního a vnějšího světa.
  • Součástí lingvistiky jsou:
    • Obecná lingvistika – obecná formulace pravidel a zákonitostí popisující jazyk s jeho formálními sémantickými a komunikativně pragmatickými strukturami.
    • Srovnávací jazykověda – je empirická a jejím úkolem je vysvětlení, že jazyky se mění a v konečném důsledku jsou si do jisté míry i podobné.
    • Konfrontační (porovnávací) jazykověda – zabývá se porovnáváním fonologických, gramatických a sémantických struktur.
    • Deskriptivní (popisná) jazykověda – popis přirozených jazyků (bohemistika, rusistika, anglistika apod.)
    • Matematická lingvistika – popis fungování přirozeného jazyka s komunikaci za pomocí metod matematiky a matematické logiky.
    • Algebraická lingvistika – využívání metod nekvantitativní a strukturní matematiky.
    • Kvantitativní lingvistika – zkoumání přirozeného jazyka za pomocí matematické statistiky, teorie pravděpodobnosti a teorie informace.
    • Strojová (počítačová) lingvistika – zkoumá přirozený jazyk za pomocí využití počítačů.

Lingvistická analýza (Obecná lingvistika)[editovat | editovat zdroj]

Podrobnější informace naleznete v článku Lingvistická analýza.

Při zpracování jazyka bylo nutné vymezit pravidla tzv. jazykové roviny. Každá jazyková rovina je pak určena svým hlavním jazykovým prvkem nebo třídou prvků, které jsou pro konkrétní rovinu typické. Každá rovina má vstupní a výstupní reprezentaci.

Fonetická rovina[editovat | editovat zdroj]

  • Fonetika je vědou na pomezí lingvistiky, anatomie, fyziologie a fyziky. Tato rovina se zabývá zpracováním signálů tj. jejich tříděním a klasifikací. Základní jednotkou je tzv. fón“.

Fóny můžeme dále dělit na: • artikulační tj. podle místa, kde se vytvářejí (pozice jazyka, zuby, otevření dutiny ústní apod.), • akustické tj. přenos zvuků prostřednictvím frekvence, • percepční tj. způsob přijímání zvuků posluchačem.

Fonetika určuje tvorbu samohlásek a souhlásek (dlouhá/krátká, tón vysoký/nízký/klesající, znělá/neznělá, nosová/nenosová). Výstupem fonetické roviny je zpracování posloupnosti fónů ve fonetické abecedě.

Fonologická rovina[editovat | editovat zdroj]

  • Fonologie se zabývá funkci hlásek. Tato rovina se zabývá stejně jako fonetika zkoumáním zvukové stránky přirozeného jazyka, a to konkrétně zvukovými rozdíly, které mají v daném jazyce schopnost rozlišovat význam. Fonologie se zabývá funkci hlásek. Základní jednotkou je tzv. foném“, tedy zvukový prostředek, který slouží k odlišení morfémů, slov a tvarů slov stejného jazyka, a to s různým významem (lexikální, gramatický). Samotný foném je možné rozpoznat jen prostřednictvím realizace „hlásky“.

Způsob artikulace určitého fonému se nazývá alofon a označuje jeden z možných zvuků, a to jak ve fonetice, tak i ve fonologii. Příklad zvuků, který získává fonologickou funkci (např. „dž“) v češtině tedy – čin – džin. Obsahem fonologické roviny jsou rovněž distinktivní rysy. To znamená, že jsou mezi jednotlivými fonémy i zvukovými jevy na vyšší úrovni rozdíly, které mají schopnost rozlišovat význam slov. V českém jazyce je tímto rysem např. znělost (tři – dři, pata - pátá) a dále odlišování různých hlásek (t/d). Další důležitou a nedělitelnou jednotkou v lingvistice je tzv. „grafém“. Grafém znázorňuje písmeno, znaky, piktogramy, číslice a interpunkční znaménka. Povětšinou platí, že jednomu fonému odpovídá jeden grafém.[kde?] Je to zaznamenání hlásky grafickým symbolem. Výstupem fonologické roviny je posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině.

Morfologie[editovat | editovat zdroj]

  • Morfologie je vědou lingvistiky, která zkoumá ohýbání, tedy skloňování a časování. Dále zkoumá pravidelné odvozování slov pomocí předpon, přípon a vpon. Morfologie studuje vztahy mezi jednotlivými částmi slov. Základní jednotkou je tzv. "morfém". Ten je nejmenší jednotkou, která nese význam, je jednotkou jazykového systému. Morf je povrchovou realizací morfému, je to jednotka promluvy např. bere – brát zde jsou konkrétními morfy „ber-“ a „br-“, které jsou realizací jednoho morfému. Různé morfy, které jsou realizací téhož morfému tzv. „aloformy“.

Jsou rozlišovány dva typy morfémů:

  1. lexikální morfém – je kmen slova, který nese význam
  2. gramatický morfém – určuje gramatickou roli slovního tvaru

Z morfologického hlediska se slova dělí na ohebná (skloňování a časování) a neohebná.

  • Morfonologická rovina - Vstupem do této roviny je posloupnost fonémů zapsaných v abstraktní abecedě. Základním prvkem jsou morfonémy, složeními prvky jsou tzv. „morfy“. Výstupem je posloupnost morfonémů členěná do morfů.
  • Morfematická rovina - Vstupem je posloupnost morfů. Základním prvkem je tzv. „séma“ a složenými prvky jsou „morfémy“ a „formém“. Výstupem je posloupnost slovních tvarů včetně významové (lexikální) a gramatické informace. Formém odpovídá slovnímu tvaru. Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“). Sémata jsou lexikální např. slovní druhy a gramatické. Výstupem morfologie je zpracování větné struktury.[zdroj?]

Syntaktická rovina[editovat | editovat zdroj]

  • Syntax je lingvistickou disciplínou zabývající se vztahy mezi slovy ve větě, dále správným tvořením větných konstrukcí a slovosledem. Do syntaxe nepatří popis významu, který nesou jednotlivá slova a skupiny slov. Základní jednotkou je věta. Syntax přirozených jazyků pak popisuje jazyk, jež vznikl přirozeným vývojem. Přirozený jazyk je typicky (syntakticky) víceznačný.
  • Vstupem do syntaktické roviny je posloupnost formémů. Základním prvkem je tzv. „tagmén“, tedy větný člen. Může jím být nejenom slovo, ale například více slov jako „v domě“, „dělal jsem“ apod. Složeným prvkem je tzv. „syntagmém“ tj. věta. Syntaktickými kategoriemi se pak rozumí např. podmět, přísudek, předmět, příslovečné určení, doplněk. Výstupem syntaktické roviny je větná struktura (strom s označením větných vztahů).

Sémantická rovina (tektogramatická nebo tektografická, hloubková)[editovat | editovat zdroj]

  • Sémantika je součástí sémiotiky. Zabývá se významem výrazů z různých strukturních úrovní jazyka, morfémů, slov, slovních spojení a vět popřípadě i vyšších textových jednotek. Vztahy těchto výrazů se skutečností pak dávají význam. Vstupem do sémantické roviny je větná stromová struktura s označením větných vztahů. Základním prvkem je tzv. „sémantém“, který odpovídá tagménu.
    • Sémantická rovina se dále zabývá:
      • koordinací - tj. slučování (a, i, ani, nebo), kdy věty jsou obsahově rovnocenné, - odporování (ale, avšak, nýbrž), kdy druhá věta vyjadřuje určitou skutečnost, která je v rozporu se skutečností první věty, - vylučováním (buď-nebo), kdy při spojení obou vět se jejich obsahy vzájemně vylučují.
      • koreferencí – jde o shodu podmětu s přísudkem na tzv. dlouhé vzdálenosti, - jde o vztah dvou a více výrazů v textu k jednomu objektu, a to i v případě, kdy je tento objekt v předchozí větě nahrazen zájmenem,
      • hloubkovými x povrchovými funkcemi

Členění věty: Věta se dělí na téma, což je základ a východisko (to, co už známe) a réma, která má funkci jádra a ohniska (to, co nového sdělujeme o tom, co již známe). V rámci východiska nebo ohniska se členy věty řadí do systémového slovosledu. Jde o hloubkový slovosled.

Výstupem sémantické roviny je větná struktura s určením větných vztahů.

Pragmatická rovina[editovat | editovat zdroj]

  • Pragmatika jako vědní disciplína spadá do oblasti lingvistiky a filosofie, která se zabývá ústním projevem, tedy promluvami a výpověďmi. V této rovině je realizováno přiřazování objektů reálného světa (nespadá do lingvistického obsahu) konkrétním tzv. uzlům větné struktury.
    • Pragmatická rovina se zabývá praktickými problémy komunikace, především individuální interpretací textu. V případě, kdy je interpretován znak, tak pak pouze ve vztahu k jiným znakům, k objektům a k uživatelům. Prostřednictvím jazyka lze dokázat konkrétní objekty našeho myšlení tzv. uchopit a popsat.
    • Tato rovina se dotýká volby, užití a efektu všech pronesených či napsaných znaků v konkrétní komunikační situaci a hodnotí, zda mluvčí zvolil správnou strategii tak, aby příjemce dosáhl porozumění. Interpretace může být také ovlivněna souborem vlastních znalostí interpreta a jeho postojem k získaným znalostem.
    • V pragmatické rovině, ale i mimo ní, se dále hovoří o tzv. diskurzu, který je možné v běžné komunikaci chápat jako rozpravu, pojednání popřípadě jako výklad k určitému tématu, a to ve formě dialogu několika mluvčích nebo pouze monologu.

Výstupem pragmatické roviny je logická forma textu, která může být vyhodnocena jako pravda nebo nepravda.

Počítačové zpracování přirozeného jazyka[editovat | editovat zdroj]

Počítačové zpracování přirozeného jazyka je interdisciplinární obor. Tento obor mimo jiné zkoumá přirozený jazyk jako matematický systém. Přirozený jazyk jako hlavní nástroj lidské komunikace je za pomocí aktivní účasti uživatele transformován prostřednictvím speciálních technologií ve formální jazyk, který je vhodný pro sémantickou prezentaci. Vyjadřuje význam jednotlivých prvků přirozeného jazyka, který je počítačově zpracován. Základem je algoritmický popis jednotlivých rovin přirozeného jazyka, který je zároveň nezávislý na konkrétním jazyku.[zdroj?] Základem interakce člověka s počítačem je dotazovací jazyk, u kterého je odstraněna víceznačnost jednotlivých prvků na všech úrovních. S ohledem na přesnost a jednoznačnost reprezentace samotného významu je nutná existence samostatné reprezentace pro každý významový prvek přirozeného jazyka. Struktury formálního jazyka jsou na konkrétních jazycích nezávislé.

Automatické indexování textů[editovat | editovat zdroj]

  • Je to proces přiřazení selekčních obrazů dokumentům nebo dotazům. Selekčním obrazem se rozumí výraz nebo množina výrazů určitého selekčního jazyka což může být např. všechna podstatná jména, předem daná podstatná jména, systém výrazů ve tvaru „podstatné jméno – přídavné jméno“ apod.
    • Klíčovým problémem automatického indexování bývá určení, která slova textu nejlépe charakterizují jeho celkový obsah.
    • Lingvistické problémy automatického indexování:
      • Významnost jednotlivých slov (slovní spojení) pro vystižení charakteru obsahu celého textu.
      • Tvarosloví (morfologie) přirozeného jazyka.
      • Synonymie a jí podobné sémantické vztahy mezi slovy a slovními spojeními.
      • Homonymie (nejednoznačnost) výrazů přirozeného jazyka.

Mozaika[editovat | editovat zdroj]

  • Tato metoda automatického indexování je vhodná především pro ty jazyky, které mají rozvinutou flexi (ohýbání slov - skloňování, časování, stupňování atd.) a mají gramatickou shodu. Těchto pozitivních výsledků bylo dosaženo mimo jiné u češtiny, slovenštiny a ruštiny. Tato metoda nedokáže zcela dobře řešit problémy synonymie, homonymie a skrytých vztahů textu. Cílem metody je přiřadit vstupnímu textu selekční obraz.
  • Tato metoda má dvě hlavní fáze, a to morfologicko-lexikální analýzu a syntaktickou analýzu. V těchto dvou fázích jsou z textu extrahovány terminologické jednotky.
    • Morfologicko-lexikální analýza
      • Vyloučení nevýznamových termínů pomocí negativního slovníku.
      • Identifikace specifických slov (předložky, spojky) důležité pro syntaktickou analýzu.
      • Určení vhodných indexačních termínů za pomocí slovníku koncových segmentů. Od slova, které nebylo úspěšně zpracováno je odtržen 4znakový koncový segment, který je hledán ve slovníku koncových segmentů.
      • Vybranému slovu jako potencionální terminologické jednotce je přiřazena jeho elementární váha (základní hodnota).
    • Syntaktická analýza
      • Jednotlivé indexační termíny jsou složeny do sousloví.
      • Na základě předložek či spojek jsou vyhledávána spojení jmenných frází.
      • Úprava vah termínů – sečtení vah jednotlivých výskytů výrazů do vaz výrazů jako takových.
    • Tato metoda dosáhla nejlepších výsledků zejména v disciplínách s ustálenou terminologií.

Automatické indexování tezauru[editovat | editovat zdroj]

  • Jedním z problémů je rovněž ta skutečnost, že informační požadavek může být vyjádřen i jinými výrazy přirozeného jazyka, než jaké se vyskytují v daném textu. Problém tkví v tom, že významy různých výrazů přirozeného jazyka se mohou různými způsoby a v různé míře vzájemně překrývat.
    • Tři typy těchto situací:
      • Dva různé výrazy mají zcela stejný význam např. klisna = kobyla, kalkulace = výpočet. Tento jev se nazývá synonymie.
      • Dva různé výrazy jsou ve vztahu obecné:konkrétní (nadřazené:podřazené) např. zvíře >hospodářské zvíře>kůň>hřebec apod.
      • Dva různé výrazy mají pouze v širším smyslu něco společného, tedy jsou sémanticky asociované: např. kůň – dostih, výpočet – kalkulátor.
  • Daný problém představuje „koeficient selekční významnosti“. Řešením problémům při indexaci dokumentů a dotazů je tezaurus.

Tezaurus[editovat | editovat zdroj]

  • Tezaurus je řízený slovník deskriptorového a selekčního jazyka, který je uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami.
  • Je to slovník obsahující:
    • Slovní zásobu tj. slova a sousloví se specifickým významem určitého jazyka případně i několika jazyků.
    • Ke každému heslu náleží co nejúplnější seznam odkazů na jiná hesla, která k němu mají sémantický vztah např. synonyma, obecnější a konkrétnější výrazy a také výrazy ve vztazích např. celek – část, třída – prvek atd.
    • Další informace o heslech např. historii jejich vzniku, příklady kontextu použití atd.
  • Tezaury určené pro indexování jsou zpravidla omezené na terminologii určité užší odborné oblasti. Ústředním pojmem tezauru určeného k indexování je pojem deskriptor. Z každé skupiny synonymních termínů je vybrán jeden reprezentant nazývaný deskriptorem. Tento by měl být používán k samotnému popisu (deskripci) skutečného nebo požadovaného obsahu textu.
  • Tezaury určené pro indexování jsou zpravidla omezené na terminologii určité užší odborné oblasti. Ústředním pojmem tezauru určeného k indexování je pojem deskriptor. Z každé skupiny synonymních termínů je vybrán jeden reprezentant nazývaný deskriptorem. Tento by měl být používán k samotnému popisu (deskripci) skutečného nebo požadovaného obsahu textu.
  • Deskriptor je univerzální vyhledávací prvek, který při vyhledávání má zastupovat i všechna svá synonyma. Všechna synonyma jsou pak nazývána nedeskriptory.
  • Pouze mezi deskriptory se zachycují vztahy (vazby) – nadřazený, podřazený, asociovaný, ekvivalentní deskriptory v jiných jazycích (v případě vícejazyčného tezauru).

Automatické referování[editovat | editovat zdroj]

  • Referát (abstrakt) je uváděn jako jeden z možných výstupů intelektuálního procesu nazývaného informační analýza dokumentů.
  • Referát je zkrácený výklad obsahu dokumentu (nebo jeho části) s hlavními věcnými údaji a závěry, který zdůrazňuje nové poznatky a umožňuje rozhodnout se o účelnosti studia původního dokumentu. Výklad obsahu musí být stručný a přesný.
  • Automatické referování extrahuje vhodný počet vět, které nejlépe vystihují, co text přináší nového.

Strojový překlad[editovat | editovat zdroj]

  • Automatický neboli strojový překlad je stejně starý jako počítačové zpracování posloupnost znaků v nejobecnějším pojetí. Od poloviny 50 let se úkolem strojového překladu zabývalo asi 20 amerických a přes 10 evropských pracovišť. V této souvislosti není možné ani opomenout Univerzitu Karlovu v Praze, která v této oblasti vyvíjela aktivity od roku 1957. Jedním z jejich výsledků byl i experimentální systém APAČ (Automatický překladač z angličtiny do češtiny).

Strojový překlad 1. generace[editovat | editovat zdroj]

  • Systém strojového překladu tzv. 1. generace vytvářely překlad typu „slovo-slovo“ v nejlepším případě „sousloví za sousloví“. Jednalo se o velmi hrubý překlad. Veškerá logika systému spočívala v nalézání slovníkové jednotky a přidávání slovníkového ekvivalentu. Tyto strojové systémy obvykle zahrnovaly lematizátor slov vstupního textu.
  • Vyzkoušené systémy strojového překladu 1. generace se staly základem automatizace nazývané dnes indikativní nebo orientační překlad. Smyslem takových systémů je rychle poskytnout informaci, o čem pojednává text v cizím jazyce.

Strojový překlad 2. generace[editovat | editovat zdroj]

  • V systémech 2. generace jsou nějakým konzistentním způsobem odděleny pracovní fáze (programové moduly), které řeší:
  • Analýzu konstrukcí vstupního jazyka a vyjádření (alespoň určité základní úrovně) jejich významu konkrétními formalizovanějšími prostředky.
  • Vlastní překlad elementárních výrazů vstupního jazyka odpovídajícími výrazy výstupního jazyka.
  • Syntézu konstrukcí výstupního jazyka potřebných ke korektnímu vyjádření daného významu.

Strojový překlad 3. generace[editovat | editovat zdroj]

  • Tyto systémy navíc uplatňují některé přístupy umělé inteligence. Někteří odborníci považují za 1. generaci jen systémy typu „slovo za slovo“, u 2. generace hovoří v souvislosti s jakýmkoliv zpracováním syntaktických struktur a 3. generaci vnímají jako zapojení jakékoli sémantiky do strojového překladu.

Automatická korektura textů[editovat | editovat zdroj]

  • Každé slovo z textu je třeba zkoušet lematizovat tak dlouho:
    • dokud se určitým lematizačním pokusem nezíská slovo ze slovníku, u kterého je ve slovníků indikován jako přípustný i ten tvar, ve kterém bylo nalezeno v textu,
    • nevyčerpají všechna lematizační pravidla na toto slovo použitelná (v textu je toto slovo pak označeno jako pravděpodobně chybné.
    • Korektury:
      • korektura mechanických chyb – jsou snadno odhalitelné formální chyby způsobené nedbalostí:
        • dvakrát za sebou napsaný stejný slovní tvar nebo stejné interpunkční znaménko,
        • nevhodná kombinace interpunkčních znamének,
        • nesprávné závorky,
        • malé písmenko na začátku věty
    • Gramatické chyby:
      • Morfologie – chybně utvořený slovní tvar, opravuje pravopisný korektor.
      • Syntax – chyby v použití slov – vynechání slova, přidání nadbytečného slova, nesprávná kombinace určitých tvarů slov, záměna určitého slovního tvaru jiným slovním tvarem a chyby v interpunkci.
    • Stylová korektura - Automatická detekce jistých často používaných víceslovných obratů, které jsou vágní (nepřispívají k jádru sdělení), zbytečně rozvláčné (je možné je nahradit jedním slovem) a redundantní (dvakrát říkají totéž).

Vytváření korpusů[editovat | editovat zdroj]

  • Korpusy textů jsou vytvářeny v rámci počítačové lingvistiky pro účely práce lingvistů. Slouží k pokusům o detailnější poznání jazyka. Korpusy jsou různého druhu neboli zaměření, obsahují velké množství textů, a to psaného i mluveného jazyka, ale i z hlediska obsahového by měly být co nejbohatší.
  • Jednojazyčný korpus je souborem textů či promluv v jednom jazyce. Aby byla informace co nejefektivněji využita pro počítačové zpracování, je třeba shromážděná data (korpusy) obohatit jejich anotováním, tzn. doplňováním hodnot gramatických či jiných např. lexikálně sémantických kategorií jednotlivým prvkům věty.
  • Existuje řada anotovaných korpusů u nás i ve světě. Pro češtinu je největším textovým korpusem Český národní korpus, vyvíjený v Ústavu Českého národního korpusu na FF UK. Anotování jazykového korpusu sebou nese důležité výsledky v lingvistice.[zdroj?] Dále umožňuje vypracovat procedury, které by se mohly na základě dat, která vytvořili lingvisté, „naučit“ analyzovat běžný text, a to včetně textu neznámého, který je pro systém dosud nepoznán.[zdroj?]

Komunikace mezi počítačem a člověkem v přirozeném jazyce[editovat | editovat zdroj]

  • Komunikace v přirozeném jazyce mezi počítačem a člověkem by mohla v daleké budoucnosti sloužit k ovládání operačního systému, k dotazování do databází a vkládání dat do nich apod. V roce 1980 vznikl pro češtinu systém KODAS pro vyhledávání dat v tabulkových strukturách.
  • ELIZA – systém je založen na třech datových strukturách. Základní konstantní datovou strukturou je slovník klíčových slov, na která je vhodné v dialogu reagovat. Každé slovo je ohodnoceno váhou a je mu přiřazena zásoba možných reakcí. Do druhé konstantní struktury patří seznam náhradních reakcí, které je možné použít bez ohledu na to, co říká pokusná osoba.

ELIZA je z roku 1964. Lidé s počítači nekomunikují pomocí přirozeného jazyka. Za posledních 34 let (1980-2014) jsou i jiné, výstižnější systémy, řešící jiné, výstižnější podproblémy.

Použité zdroje[editovat | editovat zdroj]

  • MATERNA, Pavel, PALA, Karel a ZLATUŠKA, Jiří. Logická analýza přirozeného jazyka. 1. vyd. Praha: Academia, 1989. 143 s. Cesta k vědění; Čís. 44. ISBN 80-200-0027-5.
  • ZEMAN, Daniel. Lingvistická terminologie [online]. 2012 [cit. 2013-04-10]. Dostupné z: http://ufal.mff.cuni.cz/~zeman/vyuka/podklady/.
  • UHRÍN, Tibor. Přirozený jazyk a umělý jazyk. Inflow: information journal [online]. 2008, roč. 1, č. 11 [cit. 2013-04-28]. Dostupný z: http://www.inflow.cz/prirozeny-jazyk-umely-jazyk. ISSN 1802-9736.
  • PODRAZILOVÁ, Jana. Historie pragmatiky a její formování se zaměřením na teorii řečových aktů a teorii intencí. Brno, 2010. Dostupné z: http://is.muni.cz/th/179758/ff_b_b1/?lang=en. Bakalářská diplomová práce. Masarykova univerzita, Filozofická fakulta, Ústav jazykovědy a baltistiky. Vedoucí práce PhDr. Ondřej Šefčík, Ph.D.
  • HAJIČOVÁ, Eva, PANEVOVÁ, Jarmila, SGALL, Petr. Úvod do teoretické a počítačové lingvistiky: I. svazek – Teoretická lingvistika. Praha: Karolinum, 2003. 156 s. ISBN 80-246-0470-1
  • STROSSA, Petr. Vybrané kapitoly z počítačového zpracování přirozeného jazyka. 1. vyd. Opava: Slezská univerzita v Opavě, Filozoficko-přírodovědecká fakulta, Ústav informatiky, 1999. 277 s. ISBN 80-7248-041-3.
  • HABROVSKÁ, Pavlína. Krátce o zpracování přirozeného jazyka. Inflow: information journal [online]. 2010, roč. 3, č. 9 [cit. 2013-04-24]. Dostupný: http://www.inflow.cz/kratce-o-zpracovani-prirozeneho-jazyka. ISSN 1802-9736.
  • ZHOU, Lina, ZHANG, Dongsong. NLPIR: A Theoretical Framework for Applying Natural Language Processing to Information Retrieval. Journal of the American society for Information Science and Technology. 2003, vol. 54, no. 2, s. 115-123.
  • Laboratoř zpracování přirozeného jazyka. Stručný terminologický slovník počítačové lingvistiky [online]. [cit. 2014-04-29]. Dostupné z: http://nlp.fi.muni.cz/cs/terminologie.
  • SKLENÁK, Vilém. Sémantický web [online]. [cit. 2013-04-10]. Dostupné z: http://www.inforum.cz/inforum2003/prispevky/Sklenak_Vilem.pdf.