Syntax highlighting of Archiv/Syntéza řeči z psaného textu

{{Předmět|Syntéza řeči z psaného textu|Jiří Hanika|PFL042}}

Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.

= Stručný nástin problematiky =
Proces syntézy řeči lze rozdělit do několika fází.

První úsek syntézy obsahuje kroky, které lze zařadit do ''fonetiky'', jeho vstupem je text.
* předzpracování (normalizace) 
* fonetická transkripce a vymezení jednotek
** jednotky: hláska, slabika, přízvukový takt (''věměstě''), ''fráze'', ''promluva''.
* modelování prosodie
** suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
*** intonace (frekvence kmitání hlasivek)
*** pauzy
*** intenzita (akustická energie)
*** časové členění
* volba řečových jednotek
** silně redundantní řečové korpusy
** potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky
*** vhodnost - důležitější je kontrast než absolutní hodnota

Druhý úsek můžeme zařadit do oboru ''zpracování signálu''. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají ''syntetizéry''. 

== Řečový signál ==
Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí ''"hlavní jádro"'' zvuku. Tyto významné frekvence nazýváme '''formanty''' a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...

Signál o dané frekvenci ''f'' má tzv. ''vyšší harmonické'' frekvence, což jsou celé násobky ''f'' (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).

Formantový syntetizér - vytváří zvukový signál skládáním formantů.

Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)
* formant - silný signál určité frekvence
* exploze - prudký ráz v signálu (překonání překážky)
* tranzient - přechod mezi stacionárními kmitáními různé frekvence
* locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???

== Samohlásky ==
Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).

Poloha jazyka při vyslovování samohlásek
{| border=1 cellspacing=0
|- 
|
|colspan=4| nahoře
|-
|rowspan=3|vzadu 
  ||ú,u || ü || i || í 
  |rowspan=3|vpředu
|-
| ||o,ó ||   || é
|-
| ||    ||a,á||
|-
|
|colspan=4|dole
|}

== Souhlásky ==

Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.

{| border=1 cellspacing=0
!místo artikulace !! bilabiála 
!labiodentála 
!pre-alveoláta !!post-alveoláta  !! palatála !! velára !! glotála
|-
!způsob artikulace
|-
! explozíva (závěrová)
|| p,b,m || retozubné m || t,d,n ||  || ť, ď, ň || k, g, velární n || hlasový ráz
|-
! frikativa
|| || f,v || s,z || š,ž
|-
! afrikáta 
|| || || c,dz || č, dž 
|-
! aproximanta
|| w || || || j
|-
! vibranta
|| || || r || ř
|-
! laterála
|| || || l ||
|}

[http://www.omniglot.com/writing/ipa.htm Přesnější a přehlednější tabulky IPA]

=== Vysvětlení pojmů ===

* '''labia''' - rty
* '''dentes''' - zuby
* '''alveoles''' - dásně (horní)
* '''uvula''' - čípek
* '''larynx''' - hrtan


* '''frikatíva''' - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.
* '''explozíva''' - závěr, ticho, exploze, návrat
* '''afrikáta''' - závěr, ticho, zůžení, návrat


Po fázi ticha mohou nastat:
* klasická exploze
* aspirace (prodloužení uzávěru)
* postupné uvolnění


Výše uvedené neumělé tabulky a další informace můžete najít na stránkách [http://www.omniglot.com/writing/ipa.htm IPA]

= Suprasegmentály =
* frekvence F0
* intenzita
* časové členění (například délka lhásek)


Úrovně
* slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské ''[parů]'' je jednoslabičné, čech označuje jako dvojslabičné)
* přízvukový takt
** stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)
** syllable-timed jazyky
** rozlišujeme rovněž jazyky s ''volným/pevným přízvukem'' v rámci taktu
* promluvový úsek
* výpověď
(a spekulativní meziúrovně)

= Psací soustavy =
= Modelování prozodie =
= Syntéza =
tomáš sedláček

= Linky =
* webové syntetizéry: [http://www.speechtech.cz/demo.php] [http://epos.ure.cas.cz/cgi-bin/saye.cgi?lang=czech]

[[Category:Matematická lingvistika]]