{{Předmět|Syntéza řeči z psaného textu|Jiří Hanika|PFL042}}
Následující text je snahou o velmi stručné a mnohdy zkratkovité zaznamenání oscannovaných zápisků z přednášek, které jsou samy o sobě místy neúplné.
Stručný nástin problematiky
Proces syntézy řeči lze rozdělit do několika fází.
První úsek syntézy obsahuje kroky, které lze zařadit do fonetiky, jeho vstupem je text.
předzpracování (normalizace)
fonetická transkripce a vymezení jednotek
jednotky: hláska, slabika, přízvukový takt (věměstě), fráze, promluva.
modelování prosodie
suprasegmentální jevy - nedělitelné jevy nad dělitelnými celky
intonace (frekvence kmitání hlasivek)
pauzy
intenzita (akustická energie)
časové členění
volba řečových jednotek
silně redundantní řečové korpusy
potřeba volit nejvhodnější z mnoha možných vzorků dané jednotky
vhodnost - důležitější je kontrast než absolutní hodnota
Druhý úsek můžeme zařadit do oboru zpracování signálu. V této fázi je syntetizován řečový signál (wav,...). Programy realizující tuto část se nazývají syntetizéry.
Řečový signál
Jedná se o soubor signálů různých frekvencí. Můžeme vnímat významné (silné) frekvence, které vytvářejí "hlavní jádro" zvuku. Tyto významné frekvence nazýváme formanty a označujeme je po řadě (se vzrůstající frekvencí) jako F0, F1, ...
Signál o dané frekvenci f má tzv. vyšší harmonické frekvence, což jsou celé násobky f (2, zejména pak 3 násobky), které jsou ve výsledném signálu rovněž zvýrazněné (formanty vytváří na spektrogramu pravidelný vzor).
Formantový syntetizér - vytváří zvukový signál skládáním formantů.
Na spektrogramu signálu rozpoznáváme (velmi nejasné, zda-li je následující vysvětleno pravdivě)
formant - silný signál určité frekvence
exploze - prudký ráz v signálu (překonání překážky)
tranzient - přechod mezi stacionárními kmitáními různé frekvence
locus - ticho před explozí ??? vrchol, ke kterému směřují formanty před explozí ???
Samohlásky
Stacionární signál. F0 je základní hlasivkový tón, poloha jazyka určuje F1 (nahoře x dole) a F2 (vpředu x vzadu).
Poloha jazyka při vyslovování samohlásek
nahoře | |||
vzadu | |||
ú,u | ü | i | í |
rowspan=3 | vpředu | ||
o,ó | é | ||
a,á | |||
dole |
Souhlásky
Jedná se o prudké změny v signálu (samohlásky jsou naopak stacionární). Rozlišujeme je podle místa a způsobu artikulace.
místo artikulace !! bilabiála | labiodentála | pre-alveoláta !!post-alveoláta !! palatála !! velára !! glotála | |||||
---|---|---|---|---|---|---|---|
způsob artikulace | |||||||
explozíva (závěrová) | p,b,m | retozubné m | t,d,n | ť, ď, ň | k, g, velární n | hlasový ráz | |
frikativa | f,v | s,z | š,ž | ||||
afrikáta | c,dz | č, dž | |||||
aproximanta | w | j | |||||
vibranta | r | ř | |||||
laterála | l |
Přesnější a přehlednější tabulky IPA
Vysvětlení pojmů
labia - rty
dentes - zuby
alveoles - dásně (horní)
uvula - čípek
larynx - hrtan
frikatíva - při artikulaci dochází ke zúžení dutiny, které se projeví syčením, šumem a turbulencemi. Překážka je neúplná, ale výrazna. Při rezonanci se artikulační ústrojí chová pasivně, energie je dodávána hlasivkami.
explozíva - závěr, ticho, exploze, návrat
afrikáta - závěr, ticho, zůžení, návrat
Po fázi ticha mohou nastat:
klasická exploze
aspirace (prodloužení uzávěru)
postupné uvolnění
Výše uvedené neumělé tabulky a další informace můžete najít na stránkách IPA
Suprasegmentály
frekvence F0
intenzita
časové členění (například délka lhásek)
Úrovně
slabika - hranice mohou být spekulativní, v různých jazycích jsou slabiky vnímány různě (polské [parů] je jednoslabičné, čech označuje jako dvojslabičné)
přízvukový takt
stress-timed jazyky - přízvuky přicházejí pravidelně, nepřízvučné dlouhé části se zkracují (kupř. angličtina)
syllable-timed jazyky
rozlišujeme rovněž jazyky s volným/pevným přízvukem v rámci taktu
promluvový úsek
výpověď
(a spekulativní meziúrovně)
Psací soustavy
Modelování prozodie
Syntéza
tomáš sedláček
Linky
webové syntetizéry: [http://epos.ure.cas.cz/cgi-bin/saye.cgi?lang=czech
Category:Matematická%20lingvistika