Přeskočit na obsah

Indexace

Z Wikipedie, otevřené encyklopedie

Indexace (též indexování, heslování) je proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka, obvykle s cílem umožnit zpětné vyhledávání.[1] Určit přesnou definici indexace je velice obtížné, neboť je chápana různými způsoby. Může se jednat o celý proces interakce mezi dokumentem a osobou indexátora včetně interpretace textu a obsahové analýzy, nebo může být vnímána jen jako proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka. Důležité je, že při indexaci dochází k převodu informací z textu v přirozeném jazyce do formalizovaného selekčního jazyka.

Karikatura manuální indexace, kde žena tvoří index pro Google

Smyslem indexace je, nutnost pomáhat uživatelům nalézt informace o dokumentech, případně dokumenty samotné, dále pomocí selekčního jazyka vyjádřit téma dokumentu a pomoci tak uživateli rozhodnout, zda je pro něj ten který dokument přínosný či nikoliv.[2] Je tedy nutné vyjadřovat obsah dokumentu s ohledem na možnost zpětného vyhledávání. Nevhodnou volbou prvků selekčního jazyka, se může dokument stát nevyhledatelným. Jako přímá součást indexace bývá chápana i obsahová analýza.[3]

Typy indexace

Podle použitých metod se rozlišuje pojmová a slovní indexace, podle použitých postupů se rozlišuje intelektuální, automatická a poloautomatická indexace. Z hlediska použitých selekčních jazyků se rozlišuje prekoordinovaná indexace a postkoordinovaná indexace.[1]

Intelektuální indexace

Intelektuální indexace je proces indexace realizovaný pomocí intelektuálních postupů ve všech jeho fázích, tj. při výběru relevantních výrazů z textu v přirozeném jazyce a přiřazování termínů řízeného slovníku.[4] Z toho vyplývá, že nejdůležitější roli v tomto indexačním procesu hraje lidský faktor. Analýza obsahu a jeho následný popis tak může být odlišný podle toho, která osoba indexaci provádí.

Rafferty a Hidderley[5] popisují tři základní způsoby indexace na základě toho, kým je indexace vedena: indexace vedená expertem, autorská indexace, indexace uživatelem.

Indexace vedená expertem

Tento způsob indexace je veden informačním pracovníkem (tzv. indexátorem). Indexátor je odborný pracovník, který zajišťuje věcné zpracování dokumentů za pomoci obsahové analýzy a následné indexace dokumentů.[6] Informační pracovník při ní využívá často uměle vytvořené nástroje pro pořádání, jako jsou různé příručky, hesláře, tezaury a třídníky.

Indexace informačním pracovníkem bývá časově a finančně náročná a nemusí být vždy efektivní. Některé informace mají několik možných interpretací, a pakliže nejsou dostatečně popsány, může se stát, že pro určité uživatele bude dokument nevyhledatelný. Indexátor by se měl snažit myslet jako uživatel a přizpůsobovat se jeho informačním potřebám. Měl by si uvědomovat, že většina uživatelů nehledá konkrétní knihu, nýbrž dokument pojednávající o určitém tématu. Když indexátor nepřiřadí dokumentu nějaký určitý pořádací znak, nebude toto téma v dokumentu vyhledatelné. Neznamená to však, že by měl použít co nejvíce hesel, která ho napadnou, neboť hrozí, že pak bude dokument mylně vyhledán, ačkoliv o tomto tématu téměř nepojednává.[5]

Autorská indexace

Autorská indexace spočívá ve vytváření klíčových slov a metadat samotným autorem. Autor dokumentu většinou nebývá informačním expertem a má často malé znalosti a zkušenosti, co se týče procesu indexace. Autor volí většinou pouze volně tvořená klíčová slova, nepoužívá žádné slovníky, hesláře, a ani se neřídí žádnými pravidly. Dochází tak často k situacím, kdy přiřadí dokumentu nedostatek, nebo naopak nadbytek, klíčových slov a tím způsobí nedostatečný, nebo zkreslený, popis dokumentu. Na druhou stranu, kdo by měl umět lépe interpretovat obsah určitého dokumentu, než sám jeho autor.

Navíc většina autorů dokumentů bývá zároveň samotnými uživateli dokumentů a jejich pohled na věcné vyjádření by se tak mohl zdát vzájemně podobnější než pohled informačního pracovníka, který bývá ovlivněn umělými nástroji, pravidly a letitou praxí.[5]

Indexace vedená uživatelem

V současné době dochází také k zapojení uživatelů do procesu indexace. Uživatelé sami indexují dokument pomocí klíčových slov. Tento způsob se nazývá folksonomie nebo také taggování. Tato metoda má nespornou výhodu v tom, že je zdarma a navíc nabízí různé pohledy na interpretaci. Avšak stejně jako u interpretace autorské narážíme na úskalí, kdy uživatele nejsou vázáni žádnými pravidly a navíc většina z nich nemá o indexování téměř žádné znalosti. Uživatel může většinou kdykoliv doplnit k dokumentu další popisný údaj, pokud se mu zdá, že vhodně popisuje obsah. Většinou je to uživateli dovoleno na základě nějaké registrace či členstvím v určité skupině. Dochází tak často k různým duplicitním výstupům, nevhodné používání synonym, nejednotnost používání jednotného a množného čísla a podobně.

Tento způsob indexace se hodí nejlépe k indexování uměleckých výtvarných děl či jiných vizuálních informací, kdy mohou uživatelé popisovat nejen věci vyobrazené, ale také abstraktní věci jako jsou barvy, pocity a nálady. V knihovnách se tento trend také objevuje, většinou jako doplněk indexace vedené informačním pracovníkem.[5]

Automatická indexace

Automatická indexace je proces indexace, který je realizovaný za pomocí automatických postupů. Redukce textu je dělána pomocí počítačového programu za účelem získání relevantních pojmů, které výstižně charakterizují jeho obsah. Vybrané pojmy se poté mohou nechat v přirozeném jazyce, nebo jsou přiřazeny k heslům z řízeného slovníku.[7] Výsledky automatické indexace se částečně překrývají s výstupy od profesionálních indexátorů. Avšak stále dochází i k rozdílným výsledkům a stále se hledají odpovědi, jak tyto postupy sjednotit a docílit rychlé, automatické, avšak věcně kvalitní indexaci dokumentů.

I automatická indexace se dělí na několik typů, nejčastěji na tyto dva typy: slovní indexace (automatická extrakce) a pojmová indexace (automatické přiřazování). Hlavní rozdíl těchto typů spočívá v jejich aplikaci. Slovní indexace vybírá přímo z plného textu dokumentu takové termíny, které vyjadřují jeho obsah. Kdežto u pojmové indexace, kde se může částečně využít metody automatické extrakce, jde o simulování intelektuální indexace tím způsobem, že jsou porovnávány termíny z řízeného slovníku se slovy z plného textu.[8]

Srovnání intelektuální a automatické indexace

Intelektuální indexace je časově i intelektuálně náročný proces, na který má vliv velké množství subjektivních faktorů a velkou roli v něm hraje samotná osoba indexátora. Naproti tomu automatická indexace je proces zcela automatický a umožňuje tak odstranit subjektivní faktory intelektuální indexace, což má vliv především na konzistenci indexace, a podstatně tak snižuje především časovou náročnost indexačního procesu.[8]

Automatická indexace snižuje časovou náročnost procesu indexace, avšak zase je náročná časově a finančně co se týče vývoje nových technologií, které proces automatické indexace zkvalitňují.

Nevýhoda automatické indexace je, že automatické porozumění textu je stále ve vývoji. Jsou používány metody, které proces indexace zjednodušují, avšak na úkor kvality výsledků. Každý den je složitou soustavou znaků a vzájemných vazeb, které se vyvíjely po dlouhá léta a je jasné, že i sebelepší algoritmy a vzorce počítačových programů nedosahují stejného výsledku jako lidský mozek a jeho myšlení.

Automatická indexace se i přes různé snahy obecně potýká s několika závažnými jazykovými problémy, jako jsou sousloví, homonyma, synonyma, rozdílný význam slov, citová zabarvení, proměnlivost významu slova v čase, nadřazenost a podřazenost termínů, složité vazby mezi termíny, termíny vystihující obsah, který není v textu obsažen, nebo termíny, který slovník vůbec neobsahuje.[9] S podobnými problémy se setkává i intelektuální indexace vedená uživateli či autory, kteří často také chybují v těchto jazykových procesech.

Velkým problémem automatické indexace je odborný styl a jazyková a terminologická vybavenost autora textu. Každý autor používá jiný výraz pro stejný význam, někteří autoři mají ve zvyku opakovat některé termíny stále dokola a někdy také píší abstraktně. To jsou věci, které zkušený indexátor bere v potaz, ale automatická indexace si s tím neví rady.

Trendy v indexaci

V oblasti indexace dokumentů dochází k neustálým výzkumům a vývoji nových technologií a postupů. V oblasti intelektuální indexace hraje již delší dobu roli folksonomie, především co se týče vizuálních děl, knihovních katalogů a sociálních sítí zaměřených na umělecká díla. Samotná folksonomie je velmi nepřesná a tak je trend poskytovat uživatelům jak profesionální indexaci, tak umožnit jim vlastní taggování.

Dále dochází ke kombinaci intelektuální a automatické indexace za účelem vytvoření maximálně účinného systému indexace, v němž automatická indexace slouží k provádění mechanickému provádění operací, jež je možné v rámci bez problémů automatizovat, a intelektuální indexace tvoří přidanou hodnoty, která zlepšuje celkovou kvalitu indexace a pozitivně tak ovlivňuje i výsledky vyhledávání.[9] Dochází tak ke zjednodušení a zrychlení procesu a zároveň udržení kvality indexace.

Celkově se vývoj automatické indexace inspiruje z řad různých oborů (matematika, informatika, lingvistika, psychologie atd.) a jejich objevů. Trendy směřují k systémům zpracovávání a vyhledávání informací na bázi umělé inteligence, která bude pracovat přímo s plnými texty.[9]

Reference

  1. a b BALÍKOVÁ, Marie. Indexace. KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003 [cit. 2013-08-27]. Dostupné online. }
  2. ŠAUPERL, Alenka. Catalogers' Common Ground and Shared Knowledge. S. 55–63. Journal of the American Society for Information Science and Technology [online]. 2007 [cit. 2013-08-27]. Roč. 55, čís. 1, s. 55–63. ISSN 1532-2882.. 
  3. LANCASTER, Frederick W. Indexing and abstracting in theory and practice. 3. vyd. London: Facet Publishing, 2003. ISBN 1-85604-482-3. 
  4. BLAŽEK, Jakub. Srovnání automatické a intelektuální indexace. Inflow: information journal [online]. 2008 [cit. 2013-08-27]. Roč. 1, čís. 4. Dostupné online. ISSN 1802-9736. [nedostupný zdroj]
  5. a b c d RAFFERTY, Pauline; HIDDERLEY, Rob. Flickr and democratic indexing : dialogic approaches to indexing. S. 397–410. Aslib proceedings : New information perspectives [online]. 2007 [cit. 2013-08-27]. Roč. 59, čís. 4–5, s. 397–410. ISSN 0001-253X. DOI 10.1108/0001253071817591. 
  6. PLANKOVÁ, Jindra. Indexátor. KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003 [cit. 2013-08-28]. Dostupné online. }
  7. BALÍKOVÁ, Marie. Automatická ndexace. KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003 [cit. 2013-09-08]. Dostupné online. }
  8. a b SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů.. Ikaros [online]. 2003 [cit. 2013-07-26]. Roč. 7, čís. 3. Dostupné online. ISSN 1212-5075. 
  9. a b c ANDERSON, James D.; PÉREZ-CARBALLO, José. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval : part I: research, and the nature of human indexing.. S. 231–254. . Information Processing & Management: an International Journal [online]. 2001 [cit. 2013-08-27]. Roč. 37, čís. 2, s. 231–254. ISSN 0306-4573. 

Literatura

  • CLEVELAND, Donald B. a Ana D. CLEVELAND. Introduction to indexing and abstracting. 3rd ed. Englewood: Libraries Unlimited, 2001, xiii, 283 s. ISBN 1-56308-641-7.
  • ČSN ISO 690. Dokumentace : metody analýzy dokumentů, určování jejich obsahu a výběru lexálních jednotek selekčního jazyka. Praha : ČSNI, 1996. 32 s.
  • DE KEYSER, Pierre. Indexing: from thesauri to the semantic web. Oxford: Chandos, 2012. xxi, 249 s. Chandos information professional series. ISBN 978-1-84334-292-2.
  • FIDEL, Raya. The user-centered approach: How we got here. In W. J. Wheeler (Ed.), Saving the time of the library user through subject access innovation : papers in honor of Pauline Atherton Cochrane . University of Illinois, 2000. s. 78-98
  • FROHMANN, Bernd. Rules of indexing : a critique of mentalism in information retrieval theory. Journal of Documentation. 1990, vol. 46, no. 2, p. 81-101.
  • FUGMANN, Robert. Five-axiom theory of indexing and information supply. Journal of the American Society of Information Science, vol. 36, p. 116-129. ISSN 1532-2890
  • FUGMANN, Robert. Subject analysis and indexing : theoretical foundation and practical advice. Frankfurt/Main: Indeks-Verlag, 1993. Textbooks for knowledge organization; 1. ISBN 3886725006..
  • HEDDEN, Heather. The accidental taxonomist [online]. Medford, N.J.: Information Today, 2010 [cit. 2013-08-29]. Dostupné z: Ebrary
  • KOVÁŘ, Blahoslav. Věcné pořádání informací a selekční jazyky. 2. vyd. Praha: UVTEI-Institut pro mimoškolní vzdělávání, 1984. 251 s. Učební texty / UVTEI; 22.
  • MAI, Jens-Erik. Analysis in indexing: document and domain centered approaches, Information Processing & Management [online]. 2005, vol. 41, no. 3, p. 599-611, [cit. 2013-08-27]. ISSN 0306-4573. Dostupné z: Elsevier Science Direct Freedom Collection.
  • OBASEKI, Tony I. Automated Indexing: The Key to Information Retrieval in the 21st Century. Library Philosophy & Practice [online]. 2010, Vol. 12, Issue 2, p. 1-4 [cit. 2013-08-26]. ISSN 1522-0222. Dostupný komerčně v: LISTA.
  • PETERS, Isabella. Folksonomies: indexing and retrieval in Web 2.0. Berlin: De Gruyter/Saur, 2009. 443 s. Knowledge and Information.ISBN 978-3-598-25179-5.
  • RASMUSSEN NEAL, Diane, ed. Indexing and retrieval of non-text information. Berlin: De Gruyter Saur, 2012. vi, 431 s. Knowledge and information.ISBN 978-3-11-026057-1.
  • WARD, Martin L. The future of the human indexer. Journal of librarianship and information science. 1996, Vol. 28, No. 4, s. 217-225. Lit. ISSN 0961-0006.

Související články

Externí odkazy