Syntax highlighting of Archiv/Státnice I3: Funkční generativní popis

{{TOC float}}

''Tento souhrn vznikl na základě slajdů a poznámek z předmětu [[Vybrané problémy z lingvistiky I]], nekompletních skript k předmětu [[Úvod do počítačové lingvistiky]] a skript '''Hajičová, Panevová, Sgall: Úvod do teoretické a počítačové lingvistiky I.''' -- [[User:Tuetschek|Tuetschek]] 18:05, 23 Aug 2010 (CEST)''

== Úvod ==
* Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
** 1. kniha: ''Generativní popis jazyka a česká deklinace'' (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
** navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
** představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
* cíl -- vymezení správných vět (''langue''), zachycení struktury, vztahu ''výrazu'' a ''významu'' (synonymie, homonymie)
* popis - ''závislostní, stratifikační''
** 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (''asymetrický dualismus'')
* nejvýše stojí ''jazykový význam'' (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (''obsah''), jazyk může být vágní
* V pův. FGD zásobníkový automat (''generativní složka'') generoval na významové rovině projektivní stromy
** ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (''překladová složka'')
** skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
** původní verze používala frázové stromy (s vyznačeným druhem a směrem závislosti), později upraveno na závislostní
** proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
* Bez sémantické kontroly

=== Zákl. koncepce ===
* ''roviny'' -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah ''kompozice''), vztahy mezi rovinami -- ''reprezentace''
* ''valence'' (Panevová) -- slovesa i další slovní druhy
* ''význam'' -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
* ''[[Informační struktura věty|aktuální členění]]'' (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
** základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
* ''koreference''
* ''víceznačnost'' a ''vágnost'' -- vágnost zachovaná, víceznačnost rozlišená (?)

=== Analýza a generování ===
* Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
** místo analýzy až na interlingvu se používá transfer
* Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
** formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

== Roviny popisu ==
* forma, funkce -- nižší rovina je formou vyšší roviny (vztah ''reprezentace''), základní jednotky na jedné rovině tvoří komplexní (''kompozice'')
* ''hloubková syntax'' (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
** ohodnocení uzlů: ''komplexní symbol'' -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
** lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
** morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
** syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
* ''povrchová syntax'' (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
* ''morfematická'' (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
* ''morfonologická'' -- řetězy morfonémů: ''morfy'' (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
* ''fonologická'' -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou

== Jazykový význam ==

Pro popis na tektogramatické rovině ve FGD se ostře odlišuje ''jazykový význam'' od ''myšlenkového obsahu'' (kognitivního obsahu, primárně nejazykového), tj. popisujeme jen to, co je obsaženo v jazyce -- strukturu specifickou pro daný jazyk, ale zbavenou synonymie, homonymie a dalších nepravidelností. Rozlišuje se ''víceznačnost'', naopak zachovává se ''vágnost''.

Význam je neformálně to, co je viditelné přímo z formy vyjádření, obsah už jsou vyvozované výroky (v praxi je to často horší odlišit).

I pro rozlišení víceznačností je někdy třeba věcných znalostí:
:Př. <tt>Chytil tlouště na višni.</tt> -- musíme vědět, že neseděl na višni, ale že jde o návnadu
Pořád se ale jedná o víceznačnost, protože jde ale o jazykový fenomén (homonymie dvou různých doplnění).

''Význam'' je ale vázaný i na lexikální elementy:
:Př. <tt>wash = mýt / prát</tt>, <tt>go = jít / jet</tt> -- v angličtině to skutečně je jeden význam toho slova, není tam dvojznačné
:Př. <tt>fingers / toes = prsty</tt> -- totéž v češtině (prsty jsou všechny, musí být blíže specifikovány rozvitím nebo kontextem)
Totéž platí např. o kategorii vidu, která se nekryje přesně s jinými vyjádřeními (časy v angličtině, lexikální prostředky v němčině apod). Jiné podobné fenomény jsou např. odlišení duálu nebo rozlišení osob "my včetně tebe" a "my kromě tebe" v některých jazycích.

''Vágnost'' je naopak vlastní významovým jednotkám každého jazyka. Její rozlišení už není předmětem jazyka (a tedy popisu ve FGD), ale myšlenkového obsahu:
:Př. <tt>Francouzi nejedí polévku.</tt> -- že jde o "typické Francouze", věta neudává
:Př. <tt>Děti dostaly dárky.</tt> -- neříká se, kolik dárků dostalo které dítě
Vágní jsou i relační adjektiva -- <tt>švestkové / bramborové knedlíky</tt> -- nebo přechodníky. Vágnost je i v časové souslednosti vět v češtině:
:Př. <tt>Od té doby, co matka zemřela, bylo nám stále hůř.</tt> -- neříká se, jaký je vztah dvou vět, ale dá se pochopit, že následný
Většina vágních konstrukcí lze pochopit z kontextu nebo "vyrozumět" vyvozováním důsledků. 

Z podobných důvodů, jako se omezujeme na význam, se u určování funktorů ACT a PAT omezujeme na syntaktické kritérium -- často je jejich detailní sémantika totiž vágní a lze pouze "vyrozumět" z okolí.
:Př. <tt>Otec otevřel dveře. Klíč otevřel dveře. Vítr otevřel dveře.</tt> -- toto můžeme považovat za vágnost

== Valence ve FGD ==

== Aktuální členění ve FGD ==

[[Informační struktura věty|Aktuální členění]] je ve FGD popisováno už od první verze. Navazuje tak na tradici strukturalismu a Pražského lingvistického kroužku, zejména práce [[wcs:Vilém Mathesius|Viléma Mathesia]] a [[wcs:Jan Firbas|Jana Firbase]].

=== Definice ===

V různých teoriích najdeme různou terminologii, někdy se termíny kryjí přesně, někdy ne docela. '''Informační struktura věty''' je totéž co '''aktuální členění věty''' (původní termín od Mathesia), anglicky '''topic-focus articulation''' (podle ÚFALu, P. Sgalla a dalších), nebo '''functional sentence perspective''' (podle Brněnské školy, J. Firbase a dalších). Jde o dělení věty na: 
* '''základ''', '''východisko''', '''téma věty''' nebo '''topic''', tj. to, o čem se ve větě mluví (známá informace).
* '''jádro''', '''ohnisko''', '''réma''' nebo '''focus''', tj. to, co se ve větě říká nového o známé informaci.
V pražském moderním přístupu se používá spíš anglických výrazů topic, focus a topic-focus articulation, protože původní české jsou zatíženy nepřesnostmi. 

=== Vyjádření aktuálního členění ===

Informační strukturu lze vyjádřit různými prostředky, v češtině hlavně '''slovosledem''' a '''intonací''' -- intonace je velmi důležitá, i když máme volný slovosled (a intonace má i další funkce). V angličtině např. je intonace kvůli pevnému slovosledu ještě důležitější.
* Př.: ''John gave me a letter. I met him [in a bookshop] [yesterday].'' -- jestli je focus ''yesterday'' nebo ''in a bookshop'', poznáme jen podle intonace.
* Př.: ''Nejdražší je Audi. / Audi je nejdražší.'' -- při normální intonaci je focus na konci, proto první věta odpovídá situaci, kdy mluvím o ''cenách'' vozů, kdežto druhá připadá hovoru o ''autech'' a jejich vlastnostech.
V češtině můžeme topic-focus articulation rozlišit např. i použitím krátkého nebo dlouhého tvaru zájmene (ve focusu budou spíše dlouhé tvary, dlouhé tvary zájmen se ale využívají i pro vyjádření [[#Kontrastivn.C3.AD_zapojen.C3.AD|kontrastu]] v rámci topicu).
* Př.: ''Dej mi tu knížku. / Tu knížku dej mně.''
V angličtině se dá informační struktura vyjádřit i použitím určitého nebo neurčitého členu.
* Př.: ''A disabled man limped inside. / The disabled man limped inside.'' -- v prvním případě je invalida ve focusu, v druhém v topicu
Můžeme použít ale i různé částice nebo speciální syntaktickou konstrukci, tzv. ''vytýkací'' (to bývá častější v angličtině).
* Př.: ''Teprve Jeník dokázal draka porazit.'' -- ''Jeník'' je díky částici ''teprve'' ve focusu.
* Př.: ''Byla to vichřice, co ho zničilo.'' -- vytýkací konstrukce, ve focusu je ''vichřice''.

=== Aktuální členění a význam ===

Aktuální členění úzce souvisí s ''funkcí'' sdělení, projevuje se ale různými ''formami'' (povrchovými strukturami věty); jedna forma může vyjadřovat naopak více různých aktuálních členění, ač to není tak časté:
: Př.: <tt>"Why do we dress boys in blue and girls in red?" "Because they can't dress themselves."</tt>

Aktuální členění patří do popisu významové stavby věty, v pražském popisu na tektogramatickou rovinu, protože jeho změna může změnit význam celé věty, když dojde ke změně ''presupozice'' -- nutně předpokládané skutečnosti, aby měla věta smysl:
: Př.: <tt>The king of France didn't visit the exhibition. / The exhibition was not visited by the king of France.</tt> -- první varianta presuponuje existenci výstavy i krále, kdežto pro druhou nemusí francouzský král existovat.
: Př.: <tt>Aspoň dva jazyky zná v této místnosti každý. / Každý v této místnosti zná aspoň dva jazyky.</tt> -- První věta presuponuje dva stejné jazyky, ale druhá už ne.

Aktuálním členěním lze také měnit ''dosah negace (scope of negation)'' (negace může být buď v základu, nebo v jádře -- potom se vztahuje na přísudek jen tehdy, je-li ten také v jádře):
: Př. (1): <tt>Moje sestra nehubovala bratra kvůli špatné známce</tt> = nehubovala vůbec / hubovala někoho jiného / hubovala bratra kvůli něčemu jinému.'' -- ''moje sestra'' nemůže být dotčeno negací, která je v jádru; stojí v základu
: Př. (2): <tt>Jirka nepřišel, protože mu došly peníze</tt> -- ve chvíli, kdy Jirka ''nepřišel, ne např. protože byl nemocný, ale protože mu došly peníze'', se dostává negace do základu. Je to ale dvojznačné, můžu říct, že Jirka ''přišel, protože chtěl vidět Marii'' a potom je negace v jádru.

Různé druhy negace pak ovlivňují i presupozici:
: Př.: <tt>Jirka nezpůsobil naši porážku. / Naši porážku nezpůsobil Jirka.</tt> -- první věta je dvojznačná, kdežto v druhé je jasné, že jsme byli poraženi. Porážka se tak stává presupozicí.

Aktuální členění má navíc vliv i na ''alegaci'' věty (výrok, který vyplývá z kladné verze věty, ale ze záporné nevyplývá ani on, ani jeho negace). Může měnit presupozici v alegaci a naopak:
: Př.: <tt>Milanovou dceru včera viděl Jirkův bratr. / Včera Jirkův bratr viděl Milanovu dceru.</tt> -- v první větě se presuponuje existence Milanovy dcery a Jirkův bratr je jen alegován, kdežto v druhé větě tomu je přesně naopak.

Nejde jen o negace, ale i o kvantifikátory:
* Př.: <tt>Pražané většinou jezdí na Slapy. / Na Slapy jezdí většinou Pražané.</tt> -- v první větě neříkám, kdo všechno jezdí na Slapy, ale v druhé ano.

Pro nalezení změny ve významu při změně aktuálního členění nepotřebuju ale ani kvantifikátory:
* Př.: <tt>Na Moravě se mluví česky. Česky se mluví na Moravě.</tt> -- první případ je tzv. ''exhaustive listing'' -- podávám úplnou informaci, protože na Moravě se jinak než česky nemluví; druhý ale ne, protože Česky se mluví i Čechách.
* Př.: <tt>Dogs must be CARRIED. / DOGS must be carried.</tt> -- první verze intonace říká, že mám-li psa, musím ho nést, druhá přikazuje nosit s sebou nějakého psa.

=== Začlenění do FGD ===

[[Image:Tfa_fgp.png|frame|Ukázka topic-focus articulation podle funkčního generativního popisu]]
Už z [[#Kategori.C3.A1ln.C3.AD_gramatika|minulé kapitoly]] je vidět, že složková struktura se pro aktuální členění nehodí -- základ a jádro nemusí být nutně složky. Jediná možnost vyjádření ve složkách jsou právě Steedmanovy ''floating constituents''. Nepoužíváme-li složky, ale závislostní stromy, jako ve funkčním generativním popise, nemusíme se zabývat tím, jestli je topic a focus složka. Pak můžeme u jednotlivých větných členů posoudit, zda jsou '''kontextově zapojené (contextually bound)''', nebo '''nezapojené (not bound)'''. Na základě toho můžeme popsat, co je topic a co je focus.

=== Popis v Pražském závislostním korpusu ===

[[Image:Tfa_fgp_3pravidla.png|frame|Pro oddělení topicu a focusu věty jsou nutná všechna 3 pravidla]]
V Pražském závislostním korpusu (PDT), který je na funkčním generativním popise založen, se tyto vlastnosti odrážejí v tektogramatické struktuře s malými odlišnostmi. Kontextově zapojené členy se značí malým písmenem ''t'', kontextově nezapojené malým ''f''. Máme i pravidla pro oddělení topicu a focusu celé věty (značí se velkým ''T'' a ''F'') podle těchto indikátorů:
# Začne se od kořene (slovesa)
# Přímé na slovese závislé složky vždy patří do ''T'' / ''F'' vcelku, se všemi svými členy dohromady (až na násl. výjimku)
# Pokud jsou všechny přímé závislé složky kontextově zapojené, sleduje se podstrom poslední z nich (v pořadí členů ve větě), dokud se nenajde nezapojený element. Jeho podstrom je pak focus.
Mít jen první dvě pravidla nestačí (viz obrázek). Také to není jen výměna ''t'' a ''f'' za ''T'' a ''F'', to platí jen na první závislé vrstvě, dá se to ukázat i na příkladu:
* Př.: ''Which schools do your children attend? --&gt; All (f) my children (t) attend (t) a private school (f) in London (f).'' -- v této větě je ''all'' sice kontextově nezapojené, ale patří do ''T''.

V praxi byl tento algoritmus zkoušen na větách z PDT (části, která má anotovanou kontextovou zapojenost). Až na patologické případy, kde se ve větě nenajde jediný kontextově nezapojený prvek (žádná nová informace), tahle věc fungovala (proti tomu '''topicless sentences''' bez ''T'' jsou v pořádku). Ukázalo se taky (nebo spíš potvrdily předpoklady), že přiřazení ''slovesa'' do ''T'' nebo ''F'' je často hraniční, subjektivní -- záleží na třeba na sémantické příbuznosti s předchozím slovesem. V těchto případech se také anotátoři nejčastěji neshodli.

=== Kontrastivní zapojení a souvětí ===

Pro popis v PDT musela být teorie trochu rozšířena, jak se ukázalo na datech i při výzkumu rematizátorů. Byly tam zahrnuty:
# '''koordinace klauzí''' -- ač nejde o závislosti, je nutné je v závislostních stromech řešit. Každá koordinovaná klauze má vlastní aktuální členění.
# '''subordinace''' -- závislé (subordinované) klauze jsou součástí aktuálního členění hlavní klauze, ač mají i svoje vlastní podřízené akt. členění. Stojí-li podřízená klauze v topicu, většinou jí souvětí začíná, stojí-li ve focusu, souvětí jí zpravidla končí. Některá podřadná souvětí s adverbiálními klauzemi (hlavně příčinnými a časovými) se ale chovají stejně jako souřadná.
# '''kontrastivní zapojenost''' -- nutné další popis, kromě ''t'' a ''f'' i ''c'' pro ''kontrastivně zapojené'' větné členy. I ''c'' i ''t'' potom patří do topicu (''T''). Do algoritmu byla přidána pravidla, která uvažují i ''c''.
* Př.: ''Kde jsi se setkal se svými spolužáky? --&gt; Jirku (c) jsem viděl v divadle (koordinace klauzí), Andulu (c) na koncertě.''
* Př.: ''Viděl jsem tam Janu, ale jeho (c) jsem neviděl.'' -- dlouhý tvar zájmene naznačuje kontrastivní zapojenost.



{{Work in progress|23.8.2010}}
{{Statnice I3}}