Rozpoznávání objektů

Z Wikipedie, otevřené encyklopedie

Rozpoznávání objektů je schopnost nahlížet vlastnosti fyzického objektu (jako tvar, barva, textura) a schopnost připisovat mu sémantické atributy jako pochopení použití předmětu, zkušenosti o předmětu a to, jaký je jeho vztah k ostatním předmětům.

O rozpoznávání objektů se také mluví v počítačovém vidění.

Základní fáze rozpoznávání objektu[editovat | editovat zdroj]

Jeden z modelů rozpoznávání objektů, založený na neurofyziologických důkazech, nám poskytuje informace, díky kterým můžeme rozdělit proces do čtyř základních fází:

  1. Zpracování základních součástí předmětu: barva, výška, hloubka.
  2. Tyto základní součásti jsou poté seskupeny na základě podobnosti, to nám poskytne informace o výrazných hranách předmětu. Následně proběhne rozdělení figura-pozadí.
  3. Vizuální reprezentace je porovnána ze strukturálními popisy v paměti.
  4. Sémantické atributy se aplikují na vizuální vjem, což poskytne význam a člověk je schopen předmět poznat.

V průběhu těchto fází dochází k mnoha dalším specifickým procesům, zaměřeným na různé části zpracování informace. Jsou zde další existující modely, které předkládají integrační hierarchie (zdola–nahoru a shora–dolů / bottom–up and top–down) a paralelní zpracování, které je postaveno proti obecné hierarchii zdola-nahoru.

Zpracování hierarchického rozpoznávání[editovat | editovat zdroj]

Na zpracování vizuálního rozpoznávání se vždy nahlíželo jako na hierarchii zdola–nahoru, ve které jsou informace následně zpracovávány s narůstající komplexitou, přičemž nižší procesory mozkové kůry, jako například primární zraková kůra, jsou v hierarchii zpracování dole, zatímco vyšší procesory, jako inferotemporální kůra jsou na vrcholu, kde se rozpoznávání stává možným. Jednou z nejvíce uznávaných teorií hierarchie zdola nahoru je teorie, jejímž autorem je David Marr. Naproti tomu stále narůstá popularita teorie hierarchie shora–dolů. Jeden z těchto modelů, který navrhl Moshe Bar, popisuje metodu „zkratky“, ve které jsou brzké zrakové vstupy částečně zanalyzovány a poslány ze zrakové kůry do prefrontální kůry. Možné interpretace hrubého zrakového vstupu se vytvářejí v prefrontální kůře a potom jsou poslány do inferotemporální kůry, kde postupně aktivují relevantní interpretace objektu, které jsou poté zahrnuty do pomalejšího procesu zdola–nahoru. Tato „zkratka“ má minimalizovat počet interpretací objektu potřebných pro srovnání, a tím umožňuje rozpoznání objektu. Studie lézí podporují tento návrh, neboť pacienti s lézemi na prefrontální kůře mají pomalejší odezvu, což naznačuje, že funguje pouze zpracování zdola–nahoru.

Stálost objektu a teorie rozpoznávání objektu[editovat | editovat zdroj]

Důležitý aspekt rozpoznání předmětu je stálost objektu: schopnost rozeznat předmět navzdory měnícím se podmínkám. Tyto různorodé podmínky zahrnují orientaci předmětu v prostoru, jeho osvětlení a variabilitu objektu (velikost, barva a další rozdíly v rámci kategorie). Aby mohl zrakový systém dosáhnout stálosti objektu, musí být schopný z popisů předmětu vytáhnout shodné vlastnosti během různých úhlů pohledu a popisů na sítnici. Vzniklo několik teorií, které poskytují náhled na způsoby, kterými je možné dosáhnout stálosti předmětu za účelem rozpoznání objektu. Jedná se o teorii neměnného úhlu pohledu, teorii závislé na úhlu pohledu a teorii různých úhlů pohledu.

Teorie neměnného úhlu pohledu[editovat | editovat zdroj]

Teorie neměnného úhlu pohledu tvrdí, že rozpoznání objektu je založeno na strukturálních informacích, jako jsou jednotlivé části, díky nimž se může rozpoznání objektu odehrát za libovolného úhlu pohledu. Podle tohoto je rozpoznání možné z jakéhokoliv úhlu pohledu, neboť všechny jednotlivé části objektu mohou být otočeny tak, aby zapadaly do určitého pohledu. Tato forma analytického rozpoznávání nepotřebuje velké množství paměti, neboť je třeba kódovat pouze strukturální části, které díky vzájemnému vztahu těchto částí a mentální rotaci mohou produkovat mnohé reprezentace objektu. Tudíž není třeba v paměti uchovávat podobu předmětu v různých úhlech pohledu.

Reprezentační 3-D model[editovat | editovat zdroj]

Tento model, za nímž stojí Marr a Nishihara (1978), tvrdí, že k rozpoznání objektu dochází porovnáváním 3D modelů získaných z nazírání předmětu a 3D modelů uložených v paměti. 3D reprezentace získané z předmětu jsou podrobeny měření vydutosti předmětu, což rozdělí zrakový stimul do jednotlivých částí. Poté je nalezena osa každé části předmětu. Identifikace základní osy předmětu napomáhá v normalizačním procesu skrze mentální rotaci, která je zde nutná, protože pouze kanonický popis předmětu je uložen do paměti. Rozpoznání je dosaženo v okamžiku, kdy je úhel pohledu na objekt mentálně otočen tak, aby se shodoval s kanonickým tvarem uloženým v paměti.[zdroj?]

Rozpoznávání pomocí komponentů[editovat | editovat zdroj]

Rozšíření teorie, kterou prezentovali Marr a Nishihara, je Biedermanova teorie rozpoznávání za pomoci komponentů (1987), která předpokládá, že vizuální informace získané z nazíraní předmětu jsou rozděleny do jednoduchých geometrických částí, jako krychle a válce, známé také jako geony (geometrické ikony). Tyto geony jsou poté porovnány s nejpodobnějšími reprezentacemi objektů, které jsou uloženy v paměti a vedou k identifikaci objektu.

Rozložení Objektu na Geony podle Biedermanovi teorie Komponentů.

Teorie závislé na úhlu pohledu[editovat | editovat zdroj]

Tato teorie tvrdí, že rozpoznání předmětu ovlivňuje úhel pohledu, z kterého je objekt nazírán. To vede k faktu, že objekty viděné v nových úhlech pohledu snižují přesnost a rychlost identifikace. Tato teorie rozpoznávání je založena více na holistickém systému, spíše než na rozpoznávání jednotlivých částí, to znamená, že objekty jsou uloženy v paměti s velkým množstvím různých orientací a různých úhlů pohledu. Tento způsob rozpoznávání vyžaduje velké množství paměti, vzhledem k tomu, že každý úhel pohledu musí být uložen. Přesnost rozpoznávání též záleží na tom, jak moc je námi pozorovaný úhel pohledu na objekt známý a povědomý.

Teorie různých úhlů pohledu[editovat | editovat zdroj]

Tato teorie předkládá, že rozpoznání objektu spočívá v kontinuitě úhlů pohledu, přičemž každý úhel pohledu je využit pro rozdílně typy rozpoznávání. V případě prvního extrému tohoto kontinua je mechanismus teorie závislé na úhlu pohledu používán pro diskriminaci v rámci kategorie, zatímco v druhém extrému jsou mechanismy teorie závislé na úhlu pohledu používány pro kategorizaci objektů.

Nervové substráty[editovat | editovat zdroj]

Dorzální a ventrální proudy[editovat | editovat zdroj]

Zelená označuje dorsální proud a fialová ventrální.

Zrakové zpracování objektů v mozku může být rozděleno do dvou cest: Dorsální proud (horní, zelená část obrázku), který se rozšiřuje ze zrakové kůry do temenních laloků. Ventrální proud (dolní, fialová část obrázku) se rozšiřuje ze zrakové kůry do inferotemporální kůry. Existence těchto dvou oddělených cest pro zrakové zpracování bylo jako první uvedeno Ungerleiderem a Mishkinem (1982), kteří na základě svých studií lézí tvrdí, že dorzální proud hraje roli ve zpracování zrakových informací o prostoru, jako je například umístění předmětu (kde?), zatímco ventrální proud zodpovídá za zpracování informací, které vedou k zrakové identifikaci objektu. Od tohoto původního návrhu teorie bylo porůznu naznačováno, že dorsální cesta by měla být známa jako cesta „Jak“, neboť zrakové informace o prostoru v této cestě zpracované nám poskytují informace o tom, jak zacházet s předměty. Pro rozpoznání objektu je nervová činnost soustředěna do ventrálního proudu.

Funkční specializace ve ventrálním proudu[editovat | editovat zdroj]

Během studií byly ve ventrálním proudu sledovány různé oblasti projevující funkční specializaci. Části mozku, o kterých se zjistilo, že prokazují funkční specializaci jsou Fusiform Face Area (FFA), tato oblast ukazuje zvýšenou aktivitu při spatření tváře, na rozdíl od předmětu, dále Parahippocampal Place Area (PPA), aktivována při nazírání scény oproti předmětu, Extrastriate body area (EBA), aktivovaná částí těla proti předmětu, MT+/V5 pro pohybující se stimul proti statickému a Lateral Occopotal Complex (LOC) pro rozeznatelné tvary oproti zamíchaným stimulům.

Strukturální zpracování: Laterální okcipitální komplex[editovat | editovat zdroj]

Zjistilo se, že laterální okcipitální komplex (LOC) je z části důležitý pro rozpoznávání objektů na percepčně strukturální úrovni. Během pokusů s funkční magnetickou rezonancí, která zkoumala adaptaci neuronů aktivovaných během zrakového zpracování objektu, se zjistilo, že známost s tvarem předmětu je nezbytná pro následující adaptaci v laterálním okcipitálním komplexu, zatímco specifické rysy jako okraje a kontury ne. To naznačuje, že aktivace v laterálním okcipitálním komplexu reprezentuje informace o tvaru vyšší úrovně a nikoliv pouze jednoduché rysy. V relaci se studiemi funkční magnetické rezonance se zdá, že aktivace LOC, která se dostaví nehledě na vizuální stopy prezentovaného objektu jako jsou pohyb, povrch nebo světelné kontrasty, naznačuje, že různé zrakové stopy nízké úrovně jsou používány k definování objektu a sbíhají se „s objektem spojených oblastí“, aby napomohli v čití a rozpoznávání. Žádná ze zmíněných informací o tvaru objektu vyšší úrovně neposkytuje žádnou sémantickou informaci o objektu, neboť LOC ukazuje neurální odezvu i k různícím se formám, což zahrnuje nefamiliární a abstraktní objekty.

Další experimenty ukazují, že LOC se skládá z hierarchického systému pro volitelnost tvarů, což naznačuje větší selektivní aktivaci v zadních oblastech mozku pro zlomky objektů, kdežto přední oblasti ukazují větší aktivitu pro celé nebo částečné objekty. Toto se shoduje s předchozím výzkumem, který naznačuje existenci hierarchické reprezentace ve ventrální spánkové kůře, kde se zpracování primárních rysů objevuje v předních oblastech a zahrnutí těchto rysů do celého a smysluplného objektu se odehrává v předních oblastech.

Sémantické zpracování[editovat | editovat zdroj]

Díky informacím získaným od neuropsychologických pacientů byla identifikována disociace rozpoznávacího procesu mezi strukturním a sémantickým zpracováním, to znamená, že struktura, barva a přidružené informace mohou být selektivně oslabeny. V jedné ze studií, za použití pozitronové emisní tomografie, se našly oblasti spojené s asociačně sémantickým zpracováním, což zahrnuje levý čelní lalok a levý temenní lalok, které porovnávají informace o struktuře a barvě, stejně jako pravý temenní lalok se soustředí pouze na rozhodnutí ohledně barvy. Tyto výsledky indikují, že uložené percepční znalosti a sémantické znalosti zahrnují oddělené korové regiony v rámci rozpoznávání objektu. Stejně tak ukazují na hemisférické rozdíly v temenní oblasti.

Výzkum také poskytl důkazy, které ukazují na to, že zrakové sémantické informace se spojují v inferotemporálních lalocích. Ve studii, která porovnávala sémantické znalosti kategorií a atributů, se ukázalo, že mají oddělené role, co se týče přispívání k rozpoznání objektu. Pro kategorické porovnání: okrajové oblasti fusiform gyrus se aktivovaly při spatření živého objektu, zatímco při spatření neživého objektu se aktivovaly mediální oblasti. V rámci porovnávání atributů se zjistilo, že pravý fusiform gyrus byl aktivován globální formou, kdežto lokální detaily aktivovaly pravý fusiform gyrus. Tyto výsledky naznačují, že druh kategorie objektu určuje, která z oblastí fusiform gyrus je aktivována za účelem zpracování sémantického rozpoznání, zatímco atributy objektu určují aktivaci buď levé nebo pravé části fusiform gyrus, podle toho, jestli se jedná o zpracování globální formy nebo lokálních detailů.

Dále bylo navrženo, že aktivace v čelních částech fusiform gyrus naznačuje úspěšné rozpoznání. Avšak úroveň aktivace se zdá býti závislá na sémantické relevanci k objektu. Pojem sémantická relevance zde znamená: „měření přispění sémantických rysů ke klíčovému významu konceptu“. Výsledky ukazují, že objekty s velkou sémantickou relevancí jako například artefakty vytváří zvýšenou aktivitu oproti objektům s nízkou sémantickou relevancí jako přírodní objekty. Důvodem toho je zvýšená náročnost při rozlišování přírodních objektů, protože mají velmi podobné strukturální vlastnosti, na rozdíl od artefaktů. Z toho vyplývá, že čím jednodušší je identifikace objektu, o to větší je šance ho úspěšně rozpoznat.

Rozpoznávací paměť[editovat | editovat zdroj]

Když vidíte objekt, víte, co to je, protože jste ho viděli při nějaké předchozí příležitosti. Toto se označuje jako rozpoznávací paměť. Abnormality ve ventrálním proudu nejsou jedinou věcí, která ovlivňuje naši schopnost rozpoznat objekt. Velký efekt má též způsob, jakým nám je objekt prezentován.

Familiárnost[editovat | editovat zdroj]

Jedná se o mechanismus, který je nezávislý na kontextu v tom smyslu, že snadněji rozpoznáme, co nám přijde známé, než abychom se snažili přijít na to, v jakém kontextu tento objekt známe. Čelní okrajová oblast předního laloku je zodpovědná za kódování paměti během náhodného učení a později za udržování a obnovu sémantických vzpomínek. Familiárnost též může vyvolat percepční procesy odlišné od těch, způsobených neznámým objektem, což znamená, že naše percepce konečného množství známých objektů je unikátní. Vzdálení se od typických úhlů pohledu a kontextu může ovlivnit schopnost, kterou je objekt rozeznáván nejefektivněji. Zjistilo se, že ne pouze familiární objekty jsou lépe rozpoznávány, když se na ně díváme ze známého úhlu oproti neznámému, ale i předměty nové podléhají tomuto principu. To nás přivádí k myšlence, že reprezentace objektů, které jsme viděli v prostředí, jsou v našem mozku organizovány více familiárním způsobem. Rozpoznání není poháněno z velké části pouze tvarem objektu a tím z jakého úhlu ho pozorujeme, ale také dynamickou informací. Familiárnost může podpořit vnímání dynamických bodových displejů, pohybujících se objektů, pohlaví tváří a rozpoznávání obličejů.

Vzpomínání[editovat | editovat zdroj]

Vzpomínání sdílí s familiárností spoustu společných znaků, avšak je závislé na specifické informaci ze zkoumaného incidentu.

Externí odkazy[editovat | editovat zdroj]