Rozpoznávání řeči

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Rozpoznávání řeči je postup, kdy se podle určitých zaznamenaných vzorků zvuku rozpoznává, co bylo řečeno. Metoda je zatím velmi citlivá na rozdíly v intonaci i výslovnosti. Nejvíce propracovaná je tato metoda zatím pro anglický jazyk. Pro češtinu (a obecně jakýkoliv ohebný jazyk) jsou tyto programy složitější převážně díky mnohem větším slovníkům, které musí obsahovat všechny možné varianty slov (v angličtině jedno slovo „woman“ má v češtině mnohem více možných překladů, např.: "žena", "ženy", "ženě", "ženu", ...)

I když mají mluvčí stejný jazyk, liší se jejich hlasový projev právě v různé intonaci, zabarvení atd. Tyto rozdíly se snaží překonat složité výpočetní operace, takže proces rozpoznání řeči je velmi výpočetně náročný, zvláště jde-li o rozpoznávání plynulé řeči.

Už dnes však existují programy, které reagují na jednoduché hlasové povely. Existují dokonce textové editory, kterým lze text diktovat. V současnosti nejrozšířenějším software v této oblasti je Dragon Naturally Speaking spojený s IBM ViaVoice alias "Nuance Dragon". V prográmku jménem JetVoíce můžete ovládat hlasem některé činnosti počítače. Hlasové záznamy jsou v něm vidět v obrazové podobě, kde můžete rozpoznat jak vaše intonace závratně mění způsob, jakým počítač zvuk vnímá.

V českém prostředí vyvíjí programy pro rozpoznávání řeči několik výzkumných pracovišť v Liberci, Brně, Praze a Plzni. Nejpokročilejší z nich využívá nejnovějších výsledků výzkumného projektu MegaWord.cz, který probíhá za spolupráce se Západočeskou univerzitou v Plzni (řešitelem projektu je SpeechTech, s.r.o., spoluřešitelem Západočeská univerzita v Plzni). Záměrem a cílem projektu MegaWord.cz je výzkum a experimentální vývoj softwarového systému nové generace pro automatický převod mluvené řeči do textu (dále též „diktovací systém“), tj. systému se širokým využitím, který umožňuje urychlení a usnadnění přípravy – „výroby“ – textových dokumentů. Systém bude pracovat v reálném čase se slovníkem významně převyšujícím milion slov se samozřejmým zajištěním potřebného uživatelsky příjemného prostředí. Na libereckém pracovišti byl vyvinut program pro automatické diktování NewtonDictate (nejlepší český program pro spojité diktování, vyvinutý ve spolupráci s firmou Newton Technologies a.s.) nebo také ATT Toolkit (program pro přepis televizních a rozhlasových pořadů nasazený ve firmě Newton Media).

Jednou z brandovaných variantu produktu MegaWord je software NovaVoice®, který je distribuován společností Consulting Company Novasoft a.s.. Tento produkt byl v roce 2008 oceněn Křišťálovým diskem na výstavě Invex. Dále pak v roce 2009 za tento produkt získala firma CCNovasoft ocenění Česká hlava.

Programy využívající počítačové rozpoznávání řeči mohou také sloužit pro hendikepované osoby (například hlasové ovládání počítače).

[editovat] Závislost na mluvčím

Rozpoznávání řeči může být jednak závislé na mluvčím (SD - Speaker Dependent) či na mluvčím nezávislé (SI - Speake Independent).

Systémy, které jsou závislé na mluvčím dosahují pro danou osobu lepších výsledků, ale jejich nevýhodou je, že mluvčí musí namluvit několik hodin nahrávek, aby bylo možné natrénovat dobré modely.

Systémy, které jsou nezávislé na mluvčím jsou natrénované pomocí nahrávek od velkého množství lidí. Nedosahují ovšem takové úspěšnosti jako systémy SD. Bylo proto vyvinuto několik metod, které SI model adaptují na konkrétního mluvčího. Mezi základní metody adaptace patří metody MAP (Maximum a posteriori estimation - Maximální Aposteriorní Pravděpodobnost), MLLR (Maximum Likelihood Linear Regression) a jejich různé variace.

[editovat] Metody počítačového rozpoznání řeči

Pro počítačové rozpoznání řeči se využívá algoritmu HMM (en:Hidden Markov Model - Skryté Markovské Modely). Tento model je statistický Markovský model, který obsahuje skryté stavy. HMM se používají v rozpoznávání řeči, protože řečový signál může být chápán jako po částech stacionární signál, nebo po krátkých časových úsecích stacionární signál. V krátkém čase (např. 10 ms), může být řeč aproximována jako stacionární proces. Pro rozpoznávání se často používá Viterbiho algoritmus (en:Viterbi algorithm).

Tato metoda se používá pro spojité rozpoznávání řeči, což je mnohem komplexnější a náročnější úloha než rozpoznávání izolovaných slov. Při vyslovování izolovaných slov se mluvčí více soustředí na konkrétní slovo a vyslovuje jej zřetelněji. Při spojité řeči dochází také k některým jevům jako je například spodoba slov (poslední hláska ve slově je ovlivněna následující hláskou, kterou začíná druhé slovo), polykání hlásek, apod.

Další využívanou metodou je metoda DTW (en:Dynamic Time Warping - Dynamické Borcení Času). Tato metoda je vhodná pro rozpoznávání izolovaných slov (například pro hlasové ovládání počítače), protože je zapotřebí mít ve slovníku uloženou modelovou nahrávku každého použitého slova. Metoda měří podobnost mezi dvěma nahrávkami slov (popřípadě slovních spojení) a snaží se najít nejlepší shodu - určité úseky zkracuje či prodlužuje tak, aby byl rozdíl mezi nahrávkami co nejmenší.

Osobní nástroje
Jmenné prostory

Varianty
Akce
Navigace
Tisk/export
Nástroje
V jiných jazycích