Přeskočit na obsah

Syntéza řeči

Z Wikipedie, otevřené encyklopedie
Stephen Hawking byl jeden z nejznámějších lidí, kteří ke komunikaci používali syntézu řeči.

Syntéza řeči je umělá tvorba lidské řeči. Počítačové programy používané k tomuto účelu se nazývají „syntezátory řeči“. Programy „text na řeč“ (text-to-speech, TTS) produkují řeč z textu psaného běžným jazykem; existují i programy, které jako vstup využívají fonetickou transkripci.[1] Řeč může být tvořena spojováním úseků nahrané řeči, které jsou uloženy v databázi. Takovéto databáze mohou obsahovat např. fóny a difóny nebo celá slova. V prvním případě je kvantita možného výsledku upřednostňována před kvalitou, v druhém je to naopak. Některé syntetizátory mohou řeč tvořit simulací charakteristik lidské řeči a vytvářet tak doslova umělou řeč.[2]

Kvalita syntetizátoru řeči se posuzuje podle podobnosti výstupu s lidskou řečí. Schopné programy umožňují lidem se zrakovými vadami nebo poruchami čtení poslouchat psané texty. Mnoho operačních systémů obsahuje syntetizátory řeči od počátku 80. let.

Umělá inteligence

[editovat | editovat zdroj]

V září 2016 představila společnost DeepMind model WaveNet, který ukázal, že neuronové sítě za použití hlubokého učení dokážou modelovat surové zvukové vlny a generovat řeč z akustických reprezentací, jako jsou spektrogramy. Tím položil základy moderní syntézy řeči založené na hlubokém učení. Původní verze byla výpočetně náročná, avšak o rok později vznikl výrazně rychlejší model Parallel WaveNet. Na to navázal systém Tacotron 2 od Google AI (2018), který dokázal produkovat přirozeněji znějící řeč, ale vyžadoval velké množství trénovacích dat (desítky hodin nahrávek). Při menším objemu dat kvalita výrazně klesala a při velmi krátkém tréninku nebyla řeč ani srozumitelná.[3][4]

V roce 2019 představila Microsoft Research model FastSpeech, jenž řešil problémy s rychlostí u autoregresivních modelů, jako byl Tacotron 2.[5] Ve stejném roce vznikl také HiFi-GAN, vocoder založený na generativních adversariálních sítích, který umožnil efektivní generování vysoce kvalitní řeči. V roce 2020 byl uveden Glow-TTS, jenž využil flow-based přístup pro rychlou inferenci a zároveň umožnil přenos stylu hlasu mezi různými projevy.[6]

V březnu 2020 byla spuštěna platforma 15.ai, která získala v roce 2021 mezinárodní pozornost díky schopnosti generovat emocionálně expresivní hlasy fiktivních postav s minimem dat.[7] Tvůrce uvedl, že k věrnému napodobení hlasu stačí přibližně 15 sekund záznamu, což znamenalo zásadní snížení datových nároků.[8] Platforma přispěla k popularizaci klonování hlasu v internetové kultuře,[9] ale také k prvním případům zneužití, například podvodu s NFT v roce 2022.[10]

V roce 2023 uvedla společnost ElevenLabs vlastní webovou službu pro syntézu řeči s pokročilou analýzou kontextu a emocí.[11] V roce 2024 pak OpenAI potvrdila možnost klonování hlasu z 15vteřinové nahrávky, avšak svůj nástroj Voice Engine označila za příliš rizikový pro veřejné zpřístupnění.[12][13]

V tomto článku byl použit překlad textu z článku Speech synthesis na anglické Wikipedii.

  1. Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, From Text to Speech: The MITalk system. Cambridge University Press: 1987. ISBN 0-521-30641-8
  2. RUBIN, P.; BAER, T.; MERMELSTEIN, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, s. 321–328. doi:10.1121/1.386780.
  3. BABUSCHKIN, Aäron van den Oord, Yazhe Li, Igor. High-fidelity speech synthesis with WaveNet. Google DeepMind [online]. 2017-11-22 [cit. 2026-04-07]. Dostupné online. (anglicky)
  4. Audio samples from "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". google.github.io [online]. [cit. 2026-04-07]. Dostupné online.
  5. REN, Yi; RUAN, Yangjun; TAN, Xu. FastSpeech: Fast, Robust and Controllable Text to Speech. arXiv.org [online]. 2019-05-22 [cit. 2026-04-07]. Dostupné online. (anglicky)
  6. Electrical Engineering and Systems Science. arxiv.org [online]. [cit. 2026-04-07]. Dostupné online.
  7. Insolite : un site permet de faire dire ce que vous souhaitez à GlaDOS (et à d'autres personnages de jeux vidéo). clubic.com [online]. 2021-01-24 [cit. 2026-04-07]. Dostupné online. (francouzsky)
  8. AKINSANMI, 'Sola. 15.ai Creator reveals journey from MIT Project to internet phenomenon [online]. 2024-12-10 [cit. 2026-04-07]. Dostupné online. (anglicky)
  9. MAGAZINE, Analytics India. Analytics India Magazine. analyticsindiamag.com [online]. [cit. 2026-04-07]. Dostupné online. (anglicky)
  10. PHILLIPS, Tom. Troy Baker-backed NFT firm admits using voice lines taken from another service without permission. Eurogamer.net [online]. 2022-01-17 [cit. 2026-04-07]. Dostupné online. (anglicky)
  11. STAFF, WIRED. This Podcast Is Not Hosted by AI Voice Clones. We Swear. Wired. Dostupné online [cit. 2026-04-07]. ISSN 1059-1028. (anglicky)
  12. Zvládání výzev a příležitostí u syntetických hlasů. openai.com [online]. 2024-02-15 [cit. 2026-04-07]. Dostupné online.
  13. HERN, Alex; EDITOR, Alex Hern UK technology. OpenAI deems its voice cloning tool too risky for general release. The Guardian. 2024-03-31. Dostupné online [cit. 2026-04-07]. ISSN 0261-3077. (anglicky)

Externí odkazy

[editovat | editovat zdroj]