{{Předmět|Syntéza řeči z psaného textu|Jiří Hanika|PFL042}}

Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.

Stručný nástin problematiky

Proces syntézy řeči lze rozdělit do několika fází.

První úsek syntézy obsahuje kroky, které lze zařadit do fonetiky, jeho vstupem je text.

  • předzpracování (normalizace)

  • fonetická transkripce a vymezení jednotek

    • jednotky: hláska, slabika, přízvukový takt (věměstě), fráze, promluva.

  • modelování prosodie

    • suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky

      • intonace (frekvence kmitání hlasivek)

      • pauzy

      • intenzita (akustická energie)

      • časové členění

  • volba řečových jednotek

    • silně redundantní řečové korpusy

    • potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky

      • vhodnost - důležitější je kontrast než absolutní hodnota

Druhý úsek můžeme zařadit do oboru zpracování signálu. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají syntetizéry.

Řečový signál

Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí "hlavní jádro" zvuku. Tyto významné frekvence nazýváme formanty a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...

Signál o dané frekvenci f má tzv. vyšší harmonické frekvence, což jsou celé násobky f (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).

Formantový syntetizér - vytváří zvukový signál skládáním formantů.

Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)

  • formant - silný signál určité frekvence

  • exploze - prudký ráz v signálu (překonání překážky)

  • tranzient - přechod mezi stacionárními kmitáními různé frekvence

  • locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???

Samohlásky

Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).

Poloha jazyka při vyslovování samohlásek

nahoře
vzadu ||ú,u || ü || i || í |rowspan=3|vpředu
o,ó é
a,á
dole

Souhlásky

Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.

místo artikulace !! bilabiála labiodentála pre-alveoláta !!post-alveoláta !! palatála !! velára !! glotála
způsob artikulace
explozíva (závěrová)p,b,m retozubné m t,d,n ť, ď, ň k, g, velární n hlasový ráz
frikativa f,v s,z š,ž
afrikáta c,dz č, dž
aproximantaw j
vibranta r ř
laterála l

Přesnější a přehlednější tabulky IPA

Vysvětlení pojmů

  • labia - rty

  • dentes - zuby

  • alveoles - dásně (horní)

  • uvula - čípek

  • larynx - hrtan

  • frikatíva - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.

  • explozíva - závěr, ticho, exploze, návrat

  • afrikáta - závěr, ticho, zůžení, návrat

Po fázi ticha mohou nastat:

  • klasická exploze

  • aspirace (prodloužení uzávěru)

  • postupné uvolnění

Výše uvedené neumělé tabulky a další informace můžete najít na stránkách IPA

Suprasegmentály

  • frekvence F0

  • intenzita

  • časové členění (například délka lhásek)

Úrovně

  • slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské [parů] je jednoslabičné, čech označuje jako dvojslabičné)

  • přízvukový takt

    • stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)

    • syllable-timed jazyky

    • rozlišujeme rovněž jazyky s volným/pevným přízvukem v rámci taktu

  • promluvový úsek

  • výpověď

(a spekulativní meziúrovně)

Psací soustavy

Modelování prozodie

Syntéza

tomáš sedláček

Linky

Category:Matematická lingvistika