Syntax highlighting of Archiv/Vybrané problémy z lingvistiky I

{{predmet|Vybrané problémy z lingvistiky I|Markéta Lopatková|PFL071}}
''Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- [[User:Tuetschek|Tuetschek]] 00:06, 25 Feb 2010 (CET)''

{{TODO|učesat, vysvětlit "(?)"}}
== Úvod - popis jazyka ==
* Jazyk - vztah mezi ''významem'' (funkcí, označované) a ''výrazem'' (forma, označující)
** ''langue'' a ''parole'' -- systém a užití
** omezíme se na jazykový význam, vynecháme pragmatiku
* Matematická lingvistika -- 3 možnosti pojetí:
** ''kvantitativní lingvistika'' (v 19. stol.)
** ''algebraická (formální) lingvistika'' (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
** ''počítačová (komputační) lingvistika'' -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
* Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit ''strukturu'' ~ význam
** vztah není 1:1 (víceznačnost, synonymie)
** ''formální jazyky'' -- existuje úplný popis, u ''přirozeného jazyka'' ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
* Popis -- buď od významu k výrazu (''generování (syntéza)''), nebo opačně (''rekognoskace'')
* ''Stromový popis'' -- obvyklý popis významu
** '''složkový'''   -- <math>T = <N,Q,D,P,L></math> (<math>N</math> -- množina uzlů, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>D</math> -- relace dominance, <math>P</math> -- relace precedence (silné částečné usp., slovosled) <math>L</math> -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
*** další podmínky: jediný kořen, exkluzivita pro <math>D, P</math>, ''projektivita''
*** kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu: <tt>Vánoční nadešel čas. Soubor se nepodařilo otevřít.</tt>)
** '''závislostní'''  -- <math>T = <N,Q,E,WO,L></math> (<math>N, E</math> -- konečný graf, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>WO</math> -- silné úplné uspořádání (pořadí slov), <math>L</math> -- ohodnocovací funkce)
*** jiný problém - nevyjádří těsnější a volnější spojení (<tt>Profesor zjistil, že je jeho (hladový algoritmus) nefunkční</tt>, <tt>(Zítřejší noviny) ze včerejška</tt>)

== Funkční generativní popis ==
* Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
** 1. kniha: ''Generativní popis jazyka a česká deklinace'' (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
** navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
** představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
* cíl -- vymezení správných vět (''langue''), zachycení struktury, vztahu ''výrazu'' a ''významu'' (synonymie, homonymie)
* popis - ''závislostní, stratifikační''
** 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (''asymetrický dualismus'')
* nejvýše stojí ''jazykový význam'' (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (''obsah''), jazyk může být vágní
* V pův. FGD zásobníkový automat (''generativní složka'') generoval na významové rovině projektivní stromy
** ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (''překladová složka'')
** skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
** původní verze používala frázové stromy, později upraveno na závislostní
** proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
* Bez sémantické kontroly

=== Zákl. koncepce ===
* ''roviny'' -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah ''kompozice''), vztahy mezi rovinami -- ''reprezentace''
* ''valence'' (Panevová) -- slovesa i další slovní druhy
* ''význam'' -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
* ''[[Informační struktura věty|aktuální členění]]'' (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
** základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
* ''koreference''
* ''víceznačnost'' a ''vágnost'' -- vágnost zachovaná, víceznačnost rozlišená (?)

=== Roviny popisu ===
* forma, funkce -- nižší rovina je formou vyšší roviny (vztah ''reprezentace''), základní jednotky na jedné rovině tvoří komplexní (''kompozice'')
* ''hloubková syntax'' (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
** ohodnocení uzlů: ''komplexní symbol'' -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
** lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
** morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
** syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
* ''povrchová syntax'' (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
* ''morfematická'' (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
* ''morfonologická'' -- řetězy morfonémů: ''morfy'' (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
* ''fonologická'' -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou

=== Analýza a generování ===
* Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
** místo analýzy až na interlingvu se používá transfer
* Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
** formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

== Pražský závislostní korpus (PDT) ==
* Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
** my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
* 4 roviny:
** ''w-layer'' -- nezpracovaný text, včetně chyb
** ''m-layer, a-layer, t-layer'' -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
** ''a-layer'' a ''t-layer'' se nazývají ''strukturní roviny'', jsou vždy stromy, mají technický kořen
* předpřipravené rozdělení ''train, development, test''
* data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
* ''m-layer'' se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
* ''a-layer'' -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
** mezi ''m-layer'' a ''a-layer'' je relace 1:1 slova:uzly (až na technický kořen ''a-layeru''), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
** zachovaný původní slovosled věty
* ''t-layer'' -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (<tt>a</tt>), modifikační slova (<tt>však</tt>))
** "slovosled" je jiný
** přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
* hrany -- vztah závislosti 
=== Závislost ===
* Směr závislosti, princip redukce (?)
* ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
* syntaktická, morfologická závislost -- (<tt>dívka vysoké postavy</tt> -- syntakticky nelze vypustit přívlastek)
* vnitřní, volná doplnění (?)
* valenční doplnění / okolnosti (?)
* dvojí závislost, dvojí funkce
* PP-attachment
* nejednoznačná doplnění adjektivem
* nejasné závislosti
=== Koordinace ===
Sém. vztah '''koordinace'''(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují ''různé'' entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).
* Vyjádření syntakticky různě, primárně: ''parataxe'' (souřadné spojení), ''hypotaxe'' (podřadné spojení: <tt>maminka s tatínkem</tt>)
* V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
* rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
** <tt>neboť</tt> a <tt>protože</tt> se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: <tt>neboť</tt> nestojí nikdy na zač. souvětí)
* Sémantické vztahy v kooridnaci:
** ''kopulativní'' (CONJ -- <tt>a</tt>)
** ''adverzativní'' (ADVS -- <tt>ale</tt>)
** ''disjunktivní'' (DISJ -- <tt>nebo</tt>)
** ''gradační'': stoupá důležitost (GRAD -- <tt>nejen, ale i</tt>) -- v některých jiných lingv. tradicích se nerozlišuje
** ''příčiný'' (REAS -- <tt>neboť</tt>), ''důsledkový'' (CSQ -- <tt>a tak</tt>)
** oprava (<tt>spíše, lépe</tt>), zahrnutí (<tt>a to i</tt>)
** Spec. pro PDT -- konfrontace, kontrast, matematika
* Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
* v PDT ''spojovací konstrukce'', 1 ''spojovací uzel'', který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
** spojen s ''efektivním rodičem'' spec. hranou, ''členy spojovací konstrukce'' spojeny spec. hranou se ''spojovacím výrazem'', společná rozvití taky
** ef. rodič / syn (pro společná rozvití -- <tt>(štavnaté ^a^ sladké) ovoce</tt>)

=== Apozice ===
Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.
* Různé pojetí, např. Šmilauer považuje za apozici i <tt>Pan Novák</tt>, <tt>Prezident Klaus</tt>, v PDT je to přívlastek
* Oddělení čárkou nebo věci v závorkách: <tt>"''Obč. dem. strana'' (''ODS'') ..."</tt>.
* Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
* Někdy je problém ji odlišit od koordinace (<tt>"Naši sousedé, Marie a Milan, ..."</tt>)

=== Parenteze ===
Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví
* Něco v závorkách, příp. odd. čárkou: <tt>Mohl byste, prosím, přijít?</tt> (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
** <tt>prosím, řekl bych</tt> -- ''ustálená parenteze'', de facto částice, frazémy
* ''Větná parenteze'' -- např. věta v závorce
* ''Větný člen jako parenteze'' -- <tt>Přišel pozdě (včera).</tt>
* v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
* Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso

=== Ostatní nezávislostní vztahy ===
* Tech. kořen -> ef. kořen věty (sloveso)
* Synt. nejasné výrazy (<tt>asi, snad</tt>), odkazy k předch. textu (<tt>však</tt>)
** rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
* Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
* Frazémy (spec. funktor <tt>široko <- daleko_(DPHR)</tt>)

== Valence ==
Valence je ''zákl. synt.-sém. informace'' -- de facto drží záv. stromy pohromadě.
* '''Def.:''' Schopnost lex. jednotky ''otevírat pozice'' dalším lex. jednotkám
** spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
* Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
** Valence má zachytit, které ''sémantické participanty'' mají být přítomny (termín ''sémantický participant'' se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha ''argumentů'', které na sebe slovo váže.
** Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
** Např. slovesa: prázdná valence (<tt>prší, sněží ...</tt>), 1 doplnění (<tt>běžet, jít ... </tt>), 2 doplnění (<tt>vyrábět, dělat, natírat ...</tt>), 3 doplnění (<tt>dávat ...</tt>)
* Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
* Nelze zachytit pravidly, uchovává se '''ve slovníku'''. Takový slovník už zachycuje hodně syntaktických informací.
* Pomáhá rozlišit nejednoznačnosti v:
** morfologii: <tt>Ptala se ''jeho bratra''</tt> (Gen. nebo Acc.?)
** syntaxi: <tt>Začala ho milovat. Nechala ho spát</tt> (na čem závisí <tt>ho</tt>?)
** významech slova: <tt>odpovídat na / za / čemu</tt>
** sémantice větných členů: <tt>sháněl se po ... / přišel po ...</tt>
* Důležité pro:
** NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
** Učení češtiny
** lingvistický výzkum (ověření teorie)
* Patří na ''t-rovinu'' - úzce se týká významu slov.
** Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
* Výzkum ve FGD -- od 60. let -- Panevová
* Každý autosémantický slovní druh je charakterizován valencí (''frame-bearing words'')
** primárně: ''slovesa'', ale i ''substantiva, adjektiva, adverbia''
*** např. <tt>zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho</tt>
** Pro slovesa je nejpropracovanější, nejpřesnější teorie
** Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)

=== Doplnění ===
Dělení doplnění:
* ''obligatorní'' / ''fakultativní'' -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
** některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
* ''aktanty'' -- odpovídá objektům, participanty / ''volná doplnění'' -- odpovídá přívlastkům, příslovečným určením apod.
* ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa <tt>přijít, chovat se</tt>)

==== Aktanty a volná doplnění ====
* aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
* volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
** Př.: <tt>V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).</tt>
* jsou obvykle ''rekční'' (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
* volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
* aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní

==== Pojetí aktantů ve FGD ====
* Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
** kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
* Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
** Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
** Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
* Aktanty způsobují ''posouvání'':
** 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
** např. <tt>Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!)</tt>, nebo: <tt>The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.</tt>

==== Možné významy aktantů ve FGD ====
* ACT může být (mimo jiné, dalo by se dále specializovat):
** konatel
** nositel vlastnosti nebo děje: <tt>Tráva je zelená. Petr spí.</tt>
** kauzátor (nepersonální původce děje): <tt>Vítr otevřel okno.</tt>
** possesor: <tt>Petr má auto. Petr prodal auto</tt> (v 2. případě možná i konatel)
** proživatel: <tt>Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.</tt>
** zasažený objekt: <tt>Auto se rozbilo.</tt>
** předávaná informace: <tt>Ozvalo se: "Přijďte brzo!"(ACT)</tt>
* Podobně PAT může být:
** zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): <tt>Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
** vlastník: <tt>Kniha patří Janovi.</tt>
** proživatel: <tt>Něco(ACT) vadí někomu(PAT)</tt> (proti <tt>líbit se</tt>, kde lze udělat bezpodmětnou větu jako <tt>"Líbí se mi v lese."</tt>)
** recipient: <tt>Vynadal dětem. Ozval se příteli.</tt>
** informace: <tt>Mluvit o něčem</tt>
* EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
** <tt>Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).</tt>
** je ale méně vyhraněný než ADDR a ORIG
*** např. 2 pozice u verb dicendi: <tt>Vyprávěl o nich(PAT), že ...(EFF).</tt>
* ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
** ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (<tt>Informovat někoho(ADDR) o něčem(PAT).</tt>)
** ORIG -- látka původu, původce předmětu/informace při výměně: <tt>Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)</tt>
* ADDR a ORIG se špatně kombinují

=== Valenční informace ve slovníku ===
* Jedno slovo může mít několik významů -- několik různých valenčních rámců
** např. <tt>dávat-1</tt> "rozdávat karty" -- ACT, <tt>dávat-2</tt> "běžné" -- ACT PAT ADDR

Základní pojmy:
* '''lexém''' -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
** základní jednotka ve slovníku, sdružuje všechny lex. jednotky
** pozor, někdy se lexému taky říká lex. jednotka
* (základní) '''lexikální jednotka''' (''lexical unit, lexie'')
** komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
** forma: různé tvary (osoba, pád, etc.), zachycuje se ''lemmatem''
** funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
** vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
* '''lemma''' (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
** ''formy'' -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- ''paradigma''
* '''varianty''' -- různá lemmata, která se kryjí jako lex. jednotka (např. <tt>myslet / myslit</tt>, někt. tvary mohou být shodné)
* '''homografa'''/''homonyma'' -- stejná forma, různé významy
** např. <tt>žít</tt> (obilí / život), <tt>stát</tt> (na nohou / peníze / sníh se střechy)
** potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
** jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
** je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak

Poznámky:
* valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
* různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
** různé participanty mohou být vůbec vyjádřeny
* idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu

== Valence substantiv a adjektiv ==
=== Primární substantiva ===
Rozlišují se následující doplnění, na povrchu všechna vypustitelná:
* Partitiv/materiál (aktant) -- Gen.
** řídící člen = množství/skupina (<tt>dvojice, balení, sada</tt>), kontejner (<tt>sklenice, pytlík, tisíc</tt>)
** možná shoda s pádem číslovkového výrazu (<tt>na tisíci stránkách</tt>)
* Přínáležitost (volné, u relačních substantiv (<tt>otec, příbuzný, nadřízený</tt>) aktant) -- Gen., poss. adj., předl. skupina
** příbuzenský vztah, vztah části a celku (<tt>střecha domu</tt>), nositel vlastnosti (<tt>míra čeho, délka čeho, čí upřímnost</tt>), vlastnictví, přínáležení (<tt>klíč od</tt>)
* Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (<tt>agentura Reuters, pojem času</tt>), i další (<tt>nápis Obětem války</tt>)
* Autor (volné) -- Gen., poss. adj.
* Přívlastek restriktivní (volné) -- shodné adj.
* Přívlastek deskriptivní (volné) -- shodné adj.

=== Deverbativní substantiva ===
Pro valenční chování je důležitý typ derivace, jakým vznikly:
* '''syntaktická derivace''' -- čistě syntaktický prostředek: <tt>dělání, pokrytí</tt>
* '''lexikální derivace''' -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva: <tt>letec, letiště</tt>
* Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (<tt>dar, let</tt>).
* Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
* U substantiv nejsou povrchově obligatorní valenční doplnění.

==== Morfématické změny ====
Změny morfologického vyjádření valenčního doplnění:
* strukturní pády (Nom., Acc.) se primárně mění na Gen.: <tt>vyrábět něco -> výroba čeho</tt>
** to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa <tt>zbavení koho čeho</tt>)
** existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum): <tt>lékařovo léčení pacienta, pacientovo léčení lékařem</tt>
** blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (<tt>vyhrožování, pohrdání</tt>)
* nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
** adverbia se mění typicky na adjektiva
* Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit 
** takové změny nejsou vždy povinné, špatně se hledají, ale existují
** <tt>zájem o něco / na něčem</tt>, <tt>strachovat se čeho -> strach z čeho</tt>
** <tt>dodávat komu -> dodávka komu / koho / čí</tt>

==== Syntaktická derivace ====
Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k ''abstrakci'' (nevyjádření nějakého participantu, který u původního slovesa vidět je).
* hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
* exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
* V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
* '''široce dějová jména''' (<tt>let, zájem</tt>) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.

==== Lexikální derivace ====
Sémanticky jde už o substantivum.
* Existuje několik skupin (sufixy jsou často víceznačné, např. <tt>nosič = činitel / nástroj</tt>):
** činitelská jména (<tt>-tel, -ník, -ěč/ač, -ce, -ec, -ař</tt>)
** místo činnosti (<tt>-na, -ště</tt>)
** nástroj (<tt>-č, -ko, -dlo</tt>)
** výsledek děje (<tt>-ní</tt>) -- lze chápat i jako syntaktickou derivaci a děj sám
* Dochází k redukcím na povrchové rovině:
** aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
* V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (''zabudování pozice'')
** např. <tt>učitel</tt> - není ACT, <tt>dárek</tt> - není PAT apod.
* Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
* Doplnění mohou úplně nebo postupně mizet: <tt>jejich výplata úspor klientům, výplaty zaměstnancům, výplata</tt>
** špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
* Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova <tt>třetí</tt> je <tt>tři</tt>)

=== Primární adjektiva ===
Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má <tt>než</tt> a superlativ <tt>z koho/čeho</tt>.
* Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
* Většina adjektiv má jen 1 doplnění, jen výjimky s více (<tt>nápadný čím komu, vděčný komu za co</tt>)
* Prototypicky se ACT nevyskytuje
* Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?

=== Deverbativní adjektiva ===
* např. <tt>omezit -> omezený</tt>
* Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
** sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
** <tt>kdo omezí co [na co] -> co omezené [kým na co]</tt>
** <tt>kdo žije [život] -> život žitý / kdo žijící</tt>
* na povrchu jsou doplnění vypustitelná vždy

=== Adverbia ===
Mají valenční chování, ale nikdo ho zatím nestudoval.
* <tt>kolmo na co, vedle čeho, blízko čeho</tt>

== Valenční slovníky pro ČJ ==
=== PDT-Vallex ===
* Asociovaný s daty v PDT2.0, tvořený "zdola"
** Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
** Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
* Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
* Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
* Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
** Nemělo by se stát, že valenční rámec slovesa není uvedený
** Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
* Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
* Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
* Po anotaci PDT se ještě kontrolovala konzistence

=== Vallex 2.5 ===
* Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") [http://ufal.mff.cuni.cz/vallex/]
* Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
* Krom toho další synt./sém. informace
* Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
* Volně dostupný
* Proti PDT jsou spojené vidové protějšky
* XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
* PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
** Snaha je oba automaticky spojit

=== Ostatní slovníky ===
* První val. slovník -- '''BRIEF''' -- OCR na SSJČ (Brno)
** nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
* Potom: '''Czech Syntactic Lexicon''' -- snaha o rozlišení významů v BRIEFu
** označení funktory z FGD
** není veřejný
* '''Verbalex''' -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
* tištěné:
** '''SSJČ''', '''SSČ'''
** '''Slovesa pro praxi''' -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
** '''Slovník slovesných, substantivních a adjektivních vazeb''' -- více obsahu, ale už není formalizovaný
=== Problém použití valenčních slovníků ===
'''Rozlišení''':
* Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
** skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
* Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
* Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty

'''Alternace''':
* Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
* Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
** relace shodných významů (<tt>balit věci do kufru - balit kufr</tt>)
** příbuznost slov -- často nejde shodný rámec (<tt>požádat koho o co - požadovat co na kom</tt>)

== Lingvistické zdroje ==
=== FrameNet ===
* Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (''Case For Case'', 1968)
** tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
** Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
* Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
** do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
** postupně bylo 7-8 hlavních pádů
* Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
** chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
* Tím vznikl '''FrameNet''' -- lexikální databáze sloves na univerzitě v Berkeley
** podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
** jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
** cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
** každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
** rámce mají vztahy: ''dědění / podrámec / využití'' (a další)
** elementy v rámcích: ''core / non-core''
** každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
** při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
** negativní i pozitivní případy patří do 1 rámce (např. <tt>Compliance</tt> obsahuje i <tt>violate</tt>), s rámci se pojí slovesa, substantiva, adjektiva, fráze
** nejvyšší úroveň -- hodně obecné rámce (<tt>Děj, Stupňovatelné atributy ...</tt>)
** může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (<tt>observe -> observation (Perception, Commenting), observance (Compliance)</tt>)
** v různých rámcích mají lex. jednotky různé valenční vlastnosti
* Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
* FrameNet je volně dostupný

=== PropBank ===
* Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
* Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
** máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření: <tt>A met B, A and B met -> meet(A,B)</tt>
* Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
** argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
*** ARG0 -- prototyp. agens
*** ARG1 -- prototyp. patiens
*** ARG2 -- typický adresát
*** ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
** volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
** rámce: význam slovesa, argumenty + co představují -- <tt>hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument</tt>
* i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
** <tt>Váza se rozbila. The vase broke.</tt> -- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!
** <tt>The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.</tt>
* argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné ''rolesets'' u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
** <tt>Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).</tt>
* Existuje též "valenční slovník" -- ''slovník propozic''

=== VerbNet ===
* Propracovanější sém. zroj, valenční slovník [http://verbs.colorado.edu/verb-index/index.php] (propojený s PropBankem, FrameNetem)
* Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
** např. <tt>telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4</tt>
* Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
* syntaktický popis, sémantické predikáty

=== WordNet ===
* Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
* Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
* Zákl. jednotka -- ''synset'' = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
** mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
*** zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
*** u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
*** adjektiva: antonyma, synonyma, doména
*** adverbia: antonyma, pertainyma (k čemu se vztahuje)
* Přejatá základní ontologie (nejrozšířenější (?))
* Snaha, aby byl systém totožný s lidským
** např. <tt>kanárek zpívá</tt> = 1 úroveň daleko, <tt>kanárek létá</tt> = 2 úrovně, <tt>kanárek má kůži</tt> = hodně úrovní
* námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
* neobsahuje výslovnost, etymologii, gramatické informace

=== EuroWordNet ===
* Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
** idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz <tt>go = jet, jít</tt>), proto ani významy synsetů si přesně neodpovídají
* Existuje ale ''interlingual index'' -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
* Navíc vznikla ''top-ontology'' -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
** ještě ''domain-ontology'' -- pro různá spec. odvětví
** i 1059 ''base concepts'' (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
* Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
** základní struktura musela být kvůli jiným jazykům rozšířena

=== Omega ===
* Další ontologie -- jiný způsob klasifikace, hierarchie
* Propojené s PropBankem -- pro slovesa jsou synt. informace
* Propojené i s FrameNetem etc., část mapovaná i na WordNet

=== SUMO ===
* Suggested Upper-Merged Ontology -- pro automatické odvozování
* Jsou tam k tomu logické nástroje
* taky navázané na WordNet

== Viz též ==
* Slajdy na stránkách na stránkách Dr. Lopatkové: [http://ufal.mff.cuni.cz/~lopatkova/lingv/index1.html]
* Stránka předmětu na Wiki ÚFAL (stav z r. 2008/9): [https://wiki.ufal.ms.mff.cuni.cz/courses:pfl071]
* [[Pražský závislostní korpus]]

[[Category:Matematická lingvistika]]