ICR

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

ICR (intelligent character recognition) je pokročilejší úroveň známého OCR. OCR je technika rozpoznávání znaků z již vytisknutých souborů (např. vytisknutý dokument a program s OCR dokáže znovu pomocí scanneru rozpoznat znaky a převést je do virtuálního prostředí a umožnit např. editaci).

Akorát že v případě ICR se nejedná o rozpoznávání znaků z textu, ale rovnou o rozpoznávání znaků v ručně psaném textu (z předem určených oblastí, například dotazník, formuláře) a jeho převod na znaky. Tato funkce je ještě k tomu rozšířena o učící algoritmus, který v průběhu urychluje práci programu a snižuje nároky na zásah od uživatele. Tím, že se program dokáže učit mu stačí jednou "říci", že tento zkomolený znak je "a" a program když jej příště nescanuje, tak jej automaticky vyhodnotí jako "a" a již se víc neptá. Tato technologie učení je založena konceptu neuronových sítí. Učení je velmi efektivní, ale přesto se nedá zaručit stoprocentní přesnost programu, v reálu průměrně 97%. Stejnou přesnost měla i forma zpracování v předcházející podobě. Dříve se celý proces transformace nestrukturovaných dat prováděl ručně. Člověk přesně přepisoval tištěnou formu i s formátováním do počítačové formy, ať už se jednalo o psaný či strukturovaný text. Tento způsob byl velmi pomalý a ani tak se nikdy nedosáhlo 100% úspěchu kvůli lidksému faktoru a nečitelným znakům z textu. Nyní se stále potýkáme s nerozpoznatelnými znaky, zato se tento proces velmi urychlil, snížila se časová náročnost na lidksou jednotku a automatizoval se (existují i tiskárny s automatickými podavači jednotlivých stránek se zásobníky na tisíce stránek).

Proces ICR je zakončen zobrazením všech nascenovaných a rozpoznaných stránek. V této části korektor opraví všechny znaky, které program označil jako nejisté a poté se zkompletuje a uloží celý dokument.

Tato technologie je velmi důležitá kvůli jejím využití při transformaci dat z nestrukturovaných do podoby dat strukturovaných, uložených a editovatelných v počítači, proto úzce souvisí s Enterprise content management.

Společnosti zabývající se ICR[editovat | editovat zdroj]

  • Parascript
  • A2iA
  • ABBYY
  • Acusoft
  • Cognitive Technologies
  • ExperVision
  • I. R. I. S. group
  • LEADTOOLS
  • Digital Syphon
  • a další.

Další vývojový stupeň ICR[editovat | editovat zdroj]

Dalším stupněm ve vývoji technologii založené na OCR je Intelligent word recognition (IWR), neboli inteligentní rozpoznávání slov. Tato technologie nejenže dokáže rozpoznávat ručně psané znaky, ale je obohacena o schopnost rozpoznat znaky pod úhlem (známé taktéž jako cursiva). Dalším rozdílem oproti ICR je, že IWR dokáže roreznat celá slova, až celé fráze najednou.

Nepředpokládá se, že by IWR nahradilo ICR/OCR, ale spíše se jedná o optimalizované odvětví této tématiky. Slouží k minimalizaci ruční práce na transformaci nestrukturovaných dat.

Literatura[editovat | editovat zdroj]

  • Kunstová Renáta, Efektivní správa dokumentů, Grada, 2010, Praha