Rozpoznávání řeči

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Rozpoznáváním řeči se rozumí automatický převod mluvené řeči do textu.

Metody rozpoznávání řeči jsou citlivé na rozdíly v intonaci i výslovnosti jednotlivých mluvčí,[1] které se snaží překonat složitými výpočetními operacemi. Proces rozpoznání řeči je velmi výpočetně náročný, zvláště jde-li o rozpoznávání plynulé řeči.

Existují použitelné komerční programy. Pro angličtinu (a další jazyky) zřejmě nejpokročilejším z nich Dragon Naturally Speaking spojený s IBM ViaVoice alias "Nuance Dragon". Pro češtinu se jedná o NovaVoice a NewtonDictate.

Programy využívající počítačové rozpoznávání řeči mohou sloužit pro vytváření textových dokumentů nebo pro hendikepované osoby (například hlasové ovládání počítače).

Závislost na mluvčím[editovat | editovat zdroj]

Rozpoznávání řeči může být jednak závislé na mluvčím (SD - Speaker Dependent) či na mluvčím nezávislé (SI - Speake Independent).

Systémy, které jsou závislé na mluvčím dosahují pro danou osobu lepších výsledků, ale jejich nevýhodou je, že mluvčí musí namluvit několik hodin nahrávek, aby bylo možné natrénovat dobré modely.

Systémy, které jsou nezávislé na mluvčím jsou natrénované pomocí nahrávek od velkého množství lidí. Nedosahují ovšem takové úspěšnosti jako systémy SD. Bylo proto vyvinuto několik metod, které SI model adaptují na konkrétního mluvčího. Mezi základní metody adaptace patří metody MAP (Maximum a posteriori estimation - Maximální Aposteriorní Pravděpodobnost), MLLR (Maximum Likelihood Linear Regression) a jejich různé variace.

Metody počítačového rozpoznání řeči[editovat | editovat zdroj]

Pro počítačové rozpoznání řeči se využívá algoritmu HMM (Skryté Markovovské Modely). Tento model je statistický Markovovský model, který obsahuje skryté stavy. HMM se používají v rozpoznávání řeči, protože řečový signál může být chápán jako po částech stacionární signál, nebo po krátkých časových úsecích stacionární signál. V krátkém čase (např. 10 ms), může být řeč aproximována jako stacionární proces. Pro rozpoznávání se často používá Viterbiho algoritmus (en:Viterbi algorithm).

Tato metoda se používá pro spojité rozpoznávání řeči, což je mnohem komplexnější a náročnější úloha než rozpoznávání izolovaných slov. Při vyslovování izolovaných slov se mluvčí více soustředí na konkrétní slovo a vyslovuje jej zřetelněji. Při spojité řeči dochází také k některým jevům jako je například spodoba slov (poslední hláska ve slově je ovlivněna následující hláskou, kterou začíná druhé slovo), polykání hlásek, apod.

Další využívanou metodou je metoda DTW (en:Dynamic Time Warping - Dynamické Borcení Času). Tato metoda je vhodná pro rozpoznávání izolovaných slov (například pro hlasové ovládání počítače), protože je zapotřebí mít ve slovníku uloženou modelovou nahrávku každého použitého slova. Metoda měří podobnost mezi dvěma nahrávkami slov (popřípadě slovních spojení) a snaží se najít nejlepší shodu - určité úseky zkracuje či prodlužuje tak, aby byl rozdíl mezi nahrávkami co nejmenší.

Rozpoznávání řeči pro češtinu[editovat | editovat zdroj]

Pro češtinu (a obecně jakýkoliv ohebný jazyk) jsou tyto programy složitější převážně kvůli mnohem větším slovníkům, které musí obsahovat všechny možné varianty slov (v angličtině jedno slovo woman má v češtině mnohem více možných překladů, žena, ženy, ženě, ženu, apod.)

V českém prostředí jsou uživatelům na komerční bázi k dispozici dva produkty: NovaVoice od firmy CC Novasoft a NewtonDictate od společnosti Newton Technologies. Jejich úspěšnost se liší podle druhu textu, ale lze říci, že přesahuje 90 procent.[2]

Experimentální softwarový systém pro automatický převod mluvené řeči do textu vyvíjí v ČR několik výzkumných pracovišť v Liberci, Brně, Praze a Plzni.

Jeden z nich vzniká v rámci projektu MegaWord.cz na Katedře kybernetiky Západočeské univerzity v Plzni a firmy SpeechTech. Systém má pracovat v reálném čase se slovníkem významně převyšujícím milion slov.

Výsledkem práce Laboratoře počítačového zpracování řeči Technické univerzity v Liberci jsou aplikace jako již zmíněný NewtonDictate nebo ATT Toolki, program pro přepis televizních a rozhlasových pořadů nasazený ve firmě Newton Media.

Reference[editovat | editovat zdroj]

  1. V prográmku jménem JetVoíce můžete ovládat hlasem některé činnosti počítače. Hlasové záznamy jsou v něm vidět v obrazové podobě, kde můžete rozpoznat jak vaše intonace závratně mění způsob, jakým počítač zvuk vnímá.
  2. NĚMEC, Jan. Test přepisovačů hlasu: opravdu to funguje. e15.cz [online]. 2010–03–04 [cit. 2013–05–15]. Dostupné online.