Dolování z textu

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Dolování z textu (angl. Text mining [text majnyn]) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se především s potřebou automatického zpracování ohromného množství informací dostupných v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací[1] jim tak zůstává nepřístupná.

Typické úlohy[editovat | editovat zdroj]

Určování druhu textů[editovat | editovat zdroj]

(text categorization) Cílem je přiřadit k danému textu jednu, či více kategorií z předem daného výčtu (např. sport, politika, krimi, ...). Typicky je prováděno na základě četností slov vyskytujících se v textech jednotlivých kategorií některou z technik strojového učení.

Shlukování textů/dokumentů[editovat | editovat zdroj]

(text clustering) Úloha je principiálně podobná určování druhu textů. Místo zařazování do předem daných kategorií jsou však jednotlivé texty dávány do skupin na základě jejich vzájemných podobností. Každý dokument je tak obvykle zařazen právě do jedné skupiny. Vytvořené skupiny mohou, ale nemusí odpovídat očekávaným kategoriím (burzovní zprávy a sportovní výsledky mohou například spadnout do jedné kategorie na základě faktu, že obsahují větší množství čísel).

Shrnutí textu[editovat | editovat zdroj]

(text summary) K vytvoření krátkého shrnutí textu se dá přistupovat dvěma způsoby, buď z textu vybrat nejdůležitější pasáže (např. věty) a ty vhodně seřadit (summary extraction) anebo je možné text hlouběji analyzovat a na základě jeho sémantické reprezentace parafrázovat jeho obsah (summary abstraction). Druhý z obou přístupů by měl poskytovat lepší výsledky, ve skutečnosti však sémantická analýza ani následné generování souvislého textu dosud není na takové úrovni, aby překonala výsledky prvně zmíněného přístupu.

Analýza sentimentu[editovat | editovat zdroj]

(sentiment analysis) Na základě výskytu citově zabarvených slov lze usuzovat na autorův pozitivní či negativní postoj k předmětu zprávy. To může být užitečná informace obzvláště ve spojení s tematicky zaměřenými diskusními fóry.

Extrakce konceptů; rozpoznání pojmenovaných entit[editovat | editovat zdroj]

(concept extraction; named entity recognition) Jde o určení entit, které jsou v textu zmíněny (např. v článku o V. Klausovi by tedy výrazy "Václav Klaus" a "prezident" měly být přiřazeny stejné entitě). Problém úzce souvisí s desambiguací slovních významů a tudíž patří k těm základním problémům zpracování přirozeného jazyka.

Určení vztahu mezi entitami[editovat | editovat zdroj]

Dokážeme-li v textu určit pojmenované entity, můžeme na základě analýzy vět (např. pomocí rámců - FrameNet) určit jejich vztahy (např. z výrazu "Sarkozy se oženil s Bruinovou" je možné získat vztah, že Bruinová je manželkou Sarkozyho)

Reference[editovat | editovat zdroj]

  1. Unstructured Data and the 80 Percent Rule