Syntax highlighting of Archiv/Státnice I3: Závislostní syntax

{{TOC float}}

''Tento stručný výtah vznikl na základě Wikipedie a slajdů, handoutů a zápisků z předmětů [[Úvod do obecné lingvistiky]] [[Jarmila Panevová|Prof. Panevové]] (ZS 2007/8) a [[Vybrané problémy z lingvistiky I]] [[Markéta Lopatková|Dr. Lopatkové]] (ZS 2009/10) -- [[User:Tuetschek|Tuetschek]] 23:57, 22 Aug 2010 (CEST)''

''Další zdroje:''
* '''''Hajičová, Panevová, Sgall: Úvod do teoretické a počítačové lingvistiky I.'''''
* '''''Lopatková, Plátek, Kuboň: Závislostní redukční analýza přirozených jazyků''''' [http://ufal.mff.cuni.cz:8080/bib/servlet/File?id=116583998563677&field=File]

== Úvod ==
Závislostní syntax je způsob popisu větné struktury, vytvořený [[wen:Lucien Tesnièr|L. Tesnièrem]] (dílo ''Eléments de syntaxe structurale'' vydáno 1959 posmrtně) v rámci tradice evropské strukturální lingvistiky (Tesnière spolupracoval i Pražským lingvistickým kroužkem). Na češtinu byla aplikována v knize ''Novočeské skladba'' (1947) [[wcs:Vladimír Šmilauer|V. Šmilauera]] a dále rozvíjena ve většině novějších mluvnic češtiny i v rámci ''[[Státnice I3: Funkční generativní popis|Funkčního generativního popisu]]'' [[wcs:Petr Sgall|P. Sgalla]] a dalších. Závislostní syntax se uplatňuje i v ruské teorii [[wen:Meaning-Text theory|Meaning-Text]].

Základní myšlenkou je vztah ''závislosti'' mezi jednotlivými slovy, přičemž v centru stojí hlavní sloveso a na něm závisí všechny ostatní členy ([[#Valence|valence]]). Subjekt už tedy nemá stejné výsadní postavení jako v tradiční školské gramatice. Závislosti mezi jednotlivými slovy pak větu přirozeně uspořádají do stromové struktury.

Závislostní popis je vhodný i pro jazyky s volným slovosledem, na rozdíl od popisu pomocí [[Státnice I3: Syntax bezprostředních složek a frázové gramatiky|bezprostředních složek]], který na slovosledu do značné míry závisí.

== Závislostní strom ==

[[Image:Dep-trees.png|frame|Závislostní stromy uspořádané podle slovosledného pořadí (nahoře) nebo podle závislostí (dole)]]
Závislostní strom se formálně definuje jako pětice <math>T = \langle N,Q,E,WO,L\rangle</math>, kde:
* <math>(N, E)\,\;</math> je orientovaný graf (strom, tj. souvislý a bez kružnic, každý uzel kromě kořene má právě jednoho otce),
* <math>Q\,\;</math> je množina možných ohodnocení uzlů (gramatické kategorie), 
* <math>WO\subset N\times N\,\;</math> je silné úplné uspořádání (určující pořadí slov)
* <math>L: N\to Q\,\;</math> je ohodnocovací funkce)

Takto vytvořený závislostní strom má přesně tolik vrcholů, kolik je slov ve větě (na rozdíl od složkového stromu, kde slova ve větě představují jen listy). Nedává ale žádnou informaci o tom, jak byla věta vytvořena -- zaměřuje se čistě na vztahy mezi jednotlivými členy.

Topologické (lineární) uspořádání uzlů může být řešeno tak, jak naznačeno ve formální definici, ale může být provedeno jen čistě na základě struktury, jak to bylo v původním Tesnièrově popisu (viz obrázek).

== Vztahy v závislostní syntaxi ==

Mezi slovy ve větě můžou existovat dva základní vztahy:
* ''Závislost'' (determinace) -- jedno slovo nějakým způsobem (významově) určuje druhé.
* Slova jsou na stejné úrovni, pak se jedná o ''koordinaci'' (několikanásobný větný člen), ''apozici'' (přístavek) nebo ''parentezi'' (vsuvku).
Základní závislostní strom zachycuje pouze první z nich, pro ostatní je třeba vytvořit speciální formalismus.

Závislost se typicky vyjadřuje ''hypotaxí'' (podřadností) a koordinační a podobné vztahy ''parataxí'' (souřadností). Existují ale i příklady, kde je to naopak:
:<tt>Nechoď ven, nastydneš.</tt> (determinace paratakticky), <tt>Otec s matkou šli</tt> (koordinace hypotakticky)

=== Závislost ===

Vztahy závislosti mezi slovy ve větě se formálně vyjadřují:
* ''kongruencí'' -- shodou gramatických kategorií
* ''rekcí'' -- určení gramatických kategorií nadřízeným členem (např. sloveso vyžaduje urč. pád svých [[#Valence|doplnění]])
* ''juxtapozicí'' -- přimykáním (tj. závislý člen se prostě nachází poblíž nadřízeného ve slovosledu)

Závislosti mezi slovy ve větě je možné analyzovat na základě ''principu redukce'': postupně se snažíme větu redukovat a vypouštíme slova, jejichž vynecháním zachováme gramatickou korektnost věty. Slova, která mohou být vypuštěna v libovolném pořadí, na sobě nezávisí. Rozlišujeme dva druhy závislostí:
* ''exocentrická'' -- je jednoznačné, co závisí na čem, pořadí možného vypouštění je jasně dáno
* ''endocentrická'' -- nelze jednoznačně určit, co závisí na čem (např. v rámci předložkových skupin)
Funkci a nutnost výskytu jednotlivých závislostí blíže popisuje teorie [[#Valence|valence]].

Některé závislosti se ve větě nedají analyzovat jednoznačně, věta má pak více interpretací. Jde zejména o tyto situace:
* tzv. "PP-attachment" (platí i pro složkové stromy, kde existuje více stromů odpovídajícíh stejné větě) a nejednoznačná doplnění adjektivem:
:Př. <tt>Ředitel banky roku</tt>
* vyjádření užšího nebo volnějšího vztahu v některých konstrukcích (což nelze závislostním stromem, na rozdíl od složkového, popsat):
:Př. <tt>Profesor zjistil, že je jeho (hladový algoritmus) nefunkční</tt>, <tt>(Zítřejší noviny) ze včerejška</tt>

=== Koordinace ===

[[Image:Koordinace.png|frame|Formalizace koordinace]]
Sémantický vztah '''koordinace''' (přiřaďování) je druh "zmnožení", obsazení jedné větné pozice více členy. Členy v tomto případě označují ''různé'' entity (větné členy nebo věty, i spojení větného členu s větou), které zastávají stejnou sémantickou roli. Jsou rovnocenné a samostatné, mají stejnou syntaktickou platnos. Do závislostí jdou jako celek, mají stejný řídící člen.

Podřadné a souřadné spojky se rozlišují podle pozice a přízvuku:
:<tt>neboť</tt> a <tt>protože</tt> se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: <tt>neboť</tt> nestojí nikdy na zač. souvětí)

Mezi členy koordinace nastává některý z následujících vztahů:
* ''kopulativní'' (CONJ -- <tt>a</tt>)
* ''adverzativní'' (ADVS -- <tt>ale</tt>)
* ''disjunktivní'' (DISJ -- <tt>nebo</tt>)
* ''gradační'': stoupá důležitost (GRAD -- <tt>nejen, ale i</tt>) -- v některých jiných lingv. tradicích se nerozlišuje
* ''příčiný'' (REAS -- <tt>neboť</tt>), ''důsledkový'' (CSQ -- <tt>a tak</tt>)
* oprava (<tt>spíše, lépe</tt>), zahrnutí (<tt>a to i</tt>)

Formalizace koordinace je složitá, je nutné přidat do závislostního stromu "další dimenzi". Petkevič (1995) navrhl pro Funkční generativní popis použití dvou různých typů stromových hran pro každý ze vztahů, popř. v lineárním zápisu dva typy závorek. Všechny hrany jedné koordinace jsou navázány na jeden závislostní uzel (viz obrázek).

=== Apozice ===
''Apozice'' je také zmnožení, kdy více větných členů má tutéž syntaktickou platnost. V tomto případě ale všechny pojmenovávají jeden referent. Jsou navzájem zaměnitelné a gramaticky kongruentní. Na existenci apozice se shodne většina popisů, jsou ale různá pojetí -- např. Šmilauer považuje za apozici i výrazy <tt>Pan Novák</tt>, <tt>Prezident Klaus</tt>, kdežto v PDT je to přívlastek. Někdy se rozlišuje i zda je výraz oddělený čárkou, nebo uvedený v závorkách:
:Př. <tt>"''Obč. dem. strana'' (''ODS'') ..."</tt>.

Apozici je taky občas problém odlišit od koordinace:
:Př. <tt>"Naši sousedé, Marie a Milan, ..."</tt>

Formálně je možné ji zachytit stejně jako koordinaci.

=== Parenteze ===
''Parenteze'' je vsuvka -- věta nebo větný člen, jenž syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se v okolní větě mluví. Typicky se zapisuje v závorkách, případně oddělená čárkou:
:Př. <tt>Mohl byste, prosím, přijít?</tt>

Některé výrazy, jako např. <tt>prosím, řekl bych</tt>, se považují za ''ustálenou parentezi'' -- de facto jde o částice nebo frazémy.

== Projektivita ==

Závislostní strom nad danou větou je ''projektivní'', pokud neobsahuje žádnou ''neprojektivní závislost'', tj. závislost mezi dvěma slovy oddělenými ve větě třetím slovem, které (ani nepřímo) nezávisí na žádném z nich. Pokud strom takovou závislost obsahuje, nazývá se ''neprojektivní''.

=== Definice ===

Formálně definujeme ''pokrytí uzlu'' v závislostním stromě <math>Cov(u), u\in T\,\;</math> jako množinu všech indexů vrcholů (na základě úplného uspořádání), do kterých z uzlu <math>u\,\;</math> vede (orientovaná) cesta, tedy jsou na uzlu <math>u\,\;</math> přímo či nepřímo závislé. Do této množiny se počítá i samotný uzel <math>u\,\;</math>. Pro kořen platí <math>Cov(r) = \{1,\dots |N|\}\,\;</math>.

Řekneme, že ''pokrytí uzlu'' <math>Cov(u)=\{i_1,\dots i_k\}; i_1<\dots <i_k; i_1,\dots,i_k \in \{1,\dots,|N|\}\,\;</math> obsahuje díru'', pokud existuje dvojice indexů vrcholů <math>(i_j,i_{j+1})\in Cov(u), j\in \{1,\dots k-1\}\,\;</math> taková, že <math>i_{j+1} - i_j > 1\,\;</math> (tj. pokrytí uzlu není souvislá řada indexů).

Potom pokud ve stromě existuje uzel, jehož pokrytí obsahuje díru, nazývá se strom ''neprojektivní''.

=== Vlastnosti ===

Neprojektivní věty (tj. věty, jejichž syntaktickou analýzou je neprojektivní strom) jsou v některých jazycích spíše výjimkou (např. v angličtině), v češtině jsou naprosto běžné:
:Př. <tt>Karla jsme chtěli poslat do Francie.</tt> <tt>Soubor se nepodařilo otevřít.</tt>
:Př. <tt>I saw a man with a dog yesterday which was a yorkshire terrier.</tt>

== Valence ==
{{TODO|}}

{{Statnice I3}}