{{predmet|Vybrané problémy z lingvistiky I|Markéta Lopatková|PFL071}} Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- Tuetschek 00:06, 25 Feb 2010 (CET)
{{TODO|učesat, vysvětlit "(?)"}}
Úvod - popis jazyka
Jazyk - vztah mezi významem (funkcí, označované) a výrazem (forma, označující)
langue a parole -- systém a užití
omezíme se na jazykový význam, vynecháme pragmatiku
Matematická lingvistika -- 3 možnosti pojetí:
kvantitativní lingvistika (v 19. stol.)
algebraická (formální) lingvistika (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
počítačová (komputační) lingvistika -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit strukturu ~ význam
vztah není 1:1 (víceznačnost, synonymie)
formální jazyky -- existuje úplný popis, u přirozeného jazyka ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
Popis -- buď od významu k výrazu (generování (syntéza)), nebo opačně (rekognoskace)
Stromový popis -- obvyklý popis významu
složkový -- <math>T = <N,Q,D,P,L></math> (<math>N</math> -- množina uzlů, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>D</math> -- relace dominance, <math>P</math> -- relace precedence (silné částečné usp., slovosled) <math>L</math> -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
další podmínky: jediný kořen, exkluzivita pro <math>D, P</math>, projektivita
kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu:
Vánoční nadešel čas. Soubor se nepodařilo otevřít.
)
závislostní -- <math>T = <N,Q,E,WO,L></math> (<math>N, E</math> -- konečný graf, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>WO</math> -- silné úplné uspořádání (pořadí slov), <math>L</math> -- ohodnocovací funkce)
jiný problém - nevyjádří těsnější a volnější spojení (
Profesor zjistil, že je jeho (hladový algoritmus) nefunkční
,(Zítřejší noviny) ze včerejška
)
Funkční generativní popis
Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
1. kniha: Generativní popis jazyka a česká deklinace (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
cíl -- vymezení správných vět (langue), zachycení struktury, vztahu výrazu a významu (synonymie, homonymie)
popis - závislostní, stratifikační
1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (asymetrický dualismus)
nejvýše stojí jazykový význam (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (obsah), jazyk může být vágní
V pův. FGD zásobníkový automat (generativní složka) generoval na významové rovině projektivní stromy
ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (překladová složka)
skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
původní verze používala frázové stromy, později upraveno na závislostní
proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
Bez sémantické kontroly
Zákl. koncepce
roviny -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah kompozice), vztahy mezi rovinami -- reprezentace
valence (Panevová) -- slovesa i další slovní druhy
význam -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
aktuální členění (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
koreference
víceznačnost a vágnost -- vágnost zachovaná, víceznačnost rozlišená (?)
Roviny popisu
forma, funkce -- nižší rovina je formou vyšší roviny (vztah reprezentace), základní jednotky na jedné rovině tvoří komplexní (kompozice)
hloubková syntax (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
ohodnocení uzlů: komplexní symbol -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
povrchová syntax (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
morfematická (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
morfonologická -- řetězy morfonémů: morfy (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
fonologická -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou
Analýza a generování
Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
místo analýzy až na interlingvu se používá transfer
Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)
Pražský závislostní korpus (PDT)
Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
4 roviny:
w-layer -- nezpracovaný text, včetně chyb
m-layer, a-layer, t-layer -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
a-layer a t-layer se nazývají strukturní roviny, jsou vždy stromy, mají technický kořen
předpřipravené rozdělení train, development, test
data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
m-layer se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
a-layer -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
mezi m-layer a a-layer je relace 1:1 slova:uzly (až na technický kořen a-layeru), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
zachovaný původní slovosled věty
t-layer -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (
a
), modifikační slova (však
))"slovosled" je jiný
přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
hrany -- vztah závislosti
Závislost
Směr závislosti, princip redukce (?)
ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
syntaktická, morfologická závislost -- (
dívka vysoké postavy
-- syntakticky nelze vypustit přívlastek)vnitřní, volná doplnění (?)
valenční doplnění / okolnosti (?)
dvojí závislost, dvojí funkce
PP-attachment
nejednoznačná doplnění adjektivem
nejasné závislosti
Koordinace
Sém. vztah koordinace(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují různé entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).
Vyjádření syntakticky různě, primárně: parataxe (souřadné spojení), hypotaxe (podřadné spojení:
maminka s tatínkem
)V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
neboť
aprotože
se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl:neboť
nestojí nikdy na zač. souvětí)
Sémantické vztahy v kooridnaci:
kopulativní (CONJ --
a
)adverzativní (ADVS --
ale
)disjunktivní (DISJ --
nebo
)gradační: stoupá důležitost (GRAD --
nejen, ale i
) -- v některých jiných lingv. tradicích se nerozlišujepříčiný (REAS --
neboť
), důsledkový (CSQ --a tak
)oprava (
spíše, lépe
), zahrnutí (a to i
)Spec. pro PDT -- konfrontace, kontrast, matematika
Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
v PDT spojovací konstrukce, 1 spojovací uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
spojen s efektivním rodičem spec. hranou, členy spojovací konstrukce spojeny spec. hranou se spojovacím výrazem, společná rozvití taky
ef. rodič / syn (pro společná rozvití --
(štavnaté ^a^ sladké) ovoce
)
Apozice
Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.
Různé pojetí, např. Šmilauer považuje za apozici i
Pan Novák
,Prezident Klaus
, v PDT je to přívlastekOddělení čárkou nebo věci v závorkách:
"''Obč. dem. strana'' (''ODS'') ..."
.Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
Někdy je problém ji odlišit od koordinace (
"Naši sousedé, Marie a Milan, ..."
)
Parenteze
Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví
Něco v závorkách, příp. odd. čárkou:
Mohl byste, prosím, přijít?
(Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)prosím, řekl bych
-- ustálená parenteze, de facto částice, frazémy
Větná parenteze -- např. věta v závorce
Větný člen jako parenteze --
Přišel pozdě (včera).
v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso
Ostatní nezávislostní vztahy
Tech. kořen -> ef. kořen věty (sloveso)
Synt. nejasné výrazy (
asi, snad
), odkazy k předch. textu (však
)rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
Frazémy (spec. funktor
Valence
široko <- daleko_(DPHR)
)Valence je zákl. synt.-sém. informace -- de facto drží záv. stromy pohromadě.Def.: Schopnost lex. jednotky otevírat pozice dalším lex. jednotkámspíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesnáSituace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytujíValence má zachytit, které sémantické participanty mají být přítomny (termín sémantický participant se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha argumentů, které na sebe slovo váže.Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.Např. slovesa: prázdná valence (prší, sněží ...
), 1 doplnění (běžet, jít ...
), 2 doplnění (vyrábět, dělat, natírat ...
), 3 doplnění (dávat ...
)
Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
Nelze zachytit pravidly, uchovává se ve slovníku. Takový slovník už zachycuje hodně syntaktických informací.
Pomáhá rozlišit nejednoznačnosti v:
morfologii:
Ptala se ''jeho bratra''
(Gen. nebo Acc.?)syntaxi:
Začala ho milovat. Nechala ho spát
(na čem závisího
?)významech slova:
odpovídat na / za / čemu
sémantice větných členů:
sháněl se po ... / přišel po ...
Důležité pro:
NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
Učení češtiny
lingvistický výzkum (ověření teorie)
Patří na t-rovinu - úzce se týká významu slov.
Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
Výzkum ve FGD -- od 60. let -- Panevová
Každý autosémantický slovní druh je charakterizován valencí (frame-bearing words)
primárně: slovesa, ale i substantiva, adjektiva, adverbia
např.
zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho
Pro slovesa je nejpropracovanější, nejpřesnější teorie
Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)
Doplnění
Dělení doplnění:
obligatorní / fakultativní -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
aktanty -- odpovídá objektům, participanty / volná doplnění -- odpovídá přívlastkům, příslovečným určením apod.
ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa
přijít, chovat se
)
Aktanty a volná doplnění
aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
Př.:
V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).
jsou obvykle rekční (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní
Pojetí aktantů ve FGD
Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
Aktanty způsobují posouvání:
1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
např.
Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!)
, nebo:The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.
Možné významy aktantů ve FGD
ACT může být (mimo jiné, dalo by se dále specializovat):
konatel
nositel vlastnosti nebo děje:
Tráva je zelená. Petr spí.
kauzátor (nepersonální původce děje):
Vítr otevřel okno.
possesor:
Petr má auto. Petr prodal auto
(v 2. případě možná i konatel)proživatel:
Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.
zasažený objekt:
Auto se rozbilo.
předávaná informace:
Ozvalo se: "Přijďte brzo!"(ACT)
Podobně PAT může být:
zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...):
Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)vlastník: <tt>Kniha patří Janovi.
proživatel:
Něco(ACT) vadí někomu(PAT)
(protilíbit se
, kde lze udělat bezpodmětnou větu jako"Líbí se mi v lese."
)recipient:
Vynadal dětem. Ozval se příteli.
informace:
Mluvit o něčem
EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).
je ale méně vyhraněný než ADDR a ORIG
např. 2 pozice u verb dicendi:
Vyprávěl o nich(PAT), že ...(EFF).
ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (
Informovat někoho(ADDR) o něčem(PAT).
)ORIG -- látka původu, původce předmětu/informace při výměně:
Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)
ADDR a ORIG se špatně kombinují
Valenční informace ve slovníku
Jedno slovo může mít několik významů -- několik různých valenčních rámců
např.
dávat-1
"rozdávat karty" -- ACT,dávat-2
"běžné" -- ACT PAT ADDR
Základní pojmy:
lexém -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
základní jednotka ve slovníku, sdružuje všechny lex. jednotky
pozor, někdy se lexému taky říká lex. jednotka
(základní) lexikální jednotka (lexical unit, lexie)
komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
forma: různé tvary (osoba, pád, etc.), zachycuje se lemmatem
funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
lemma (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
formy -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- paradigma
varianty -- různá lemmata, která se kryjí jako lex. jednotka (např.
myslet / myslit
, někt. tvary mohou být shodné)homografa/homonyma -- stejná forma, různé významy
např.
žít
(obilí / život),stát
(na nohou / peníze / sníh se střechy)potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak
Poznámky:
valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
různé participanty mohou být vůbec vyjádřeny
idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu
Valence substantiv a adjektiv
Primární substantiva
Rozlišují se následující doplnění, na povrchu všechna vypustitelná:
Partitiv/materiál (aktant) -- Gen.
řídící člen = množství/skupina (
dvojice, balení, sada
), kontejner (sklenice, pytlík, tisíc
)možná shoda s pádem číslovkového výrazu (
na tisíci stránkách
)
Přínáležitost (volné, u relačních substantiv (
otec, příbuzný, nadřízený
) aktant) -- Gen., poss. adj., předl. skupinapříbuzenský vztah, vztah části a celku (
střecha domu
), nositel vlastnosti (míra čeho, délka čeho, čí upřímnost
), vlastnictví, přínáležení (klíč od
)
Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (
agentura Reuters, pojem času
), i další (nápis Obětem války
)Autor (volné) -- Gen., poss. adj.
Přívlastek restriktivní (volné) -- shodné adj.
Přívlastek deskriptivní (volné) -- shodné adj.
Deverbativní substantiva
Pro valenční chování je důležitý typ derivace, jakým vznikly:
syntaktická derivace -- čistě syntaktický prostředek:
dělání, pokrytí
lexikální derivace -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva:
letec, letiště
Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (
dar, let
).Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
U substantiv nejsou povrchově obligatorní valenční doplnění.
Morfématické změny
Změny morfologického vyjádření valenčního doplnění:
strukturní pády (Nom., Acc.) se primárně mění na Gen.:
vyrábět něco -> výroba čeho
to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa
zbavení koho čeho
)existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum):
lékařovo léčení pacienta, pacientovo léčení lékařem
blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (
vyhrožování, pohrdání
)
nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
adverbia se mění typicky na adjektiva
Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit
takové změny nejsou vždy povinné, špatně se hledají, ale existují
zájem o něco / na něčem
,strachovat se čeho -> strach z čeho
dodávat komu -> dodávka komu / koho / čí
Syntaktická derivace
Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k abstrakci (nevyjádření nějakého participantu, který u původního slovesa vidět je).
hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
široce dějová jména (
let, zájem
) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.
Lexikální derivace
Sémanticky jde už o substantivum.
Existuje několik skupin (sufixy jsou často víceznačné, např.
nosič = činitel / nástroj
):činitelská jména (
-tel, -ník, -ěč/ač, -ce, -ec, -ař
)místo činnosti (
-na, -ště
)nástroj (
-č, -ko, -dlo
)výsledek děje (
-ní
) -- lze chápat i jako syntaktickou derivaci a děj sám
Dochází k redukcím na povrchové rovině:
aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (zabudování pozice)
např.
učitel
- není ACT,dárek
- není PAT apod.
Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
Doplnění mohou úplně nebo postupně mizet:
jejich výplata úspor klientům, výplaty zaměstnancům, výplata
špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova
třetí
jetři
)
Primární adjektiva
Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má než
a superlativ z koho/čeho
.
Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
Většina adjektiv má jen 1 doplnění, jen výjimky s více (
nápadný čím komu, vděčný komu za co
)Prototypicky se ACT nevyskytuje
Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?
Deverbativní adjektiva
např.
omezit -> omezený
Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
kdo omezí co [na co] -> co omezené [kým na co]
kdo žije [život] -> život žitý / kdo žijící
na povrchu jsou doplnění vypustitelná vždy
Adverbia
Mají valenční chování, ale nikdo ho zatím nestudoval.
kolmo na co, vedle čeho, blízko čeho
Valenční slovníky pro ČJ
PDT-Vallex
Asociovaný s daty v PDT2.0, tvořený "zdola"
Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
Nemělo by se stát, že valenční rámec slovesa není uvedený
Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
Po anotaci PDT se ještě kontrolovala konzistence
Vallex 2.5
Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") vallex/
Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
Krom toho další synt./sém. informace
Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
Volně dostupný
Proti PDT jsou spojené vidové protějšky
XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
Snaha je oba automaticky spojit
Ostatní slovníky
První val. slovník -- BRIEF -- OCR na SSJČ (Brno)
nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
Potom: Czech Syntactic Lexicon -- snaha o rozlišení významů v BRIEFu
označení funktory z FGD
není veřejný
Verbalex -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
tištěné:
SSJČ, SSČ
Slovesa pro praxi -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
Slovník slovesných, substantivních a adjektivních vazeb -- více obsahu, ale už není formalizovaný
Problém použití valenčních slovníků
Rozlišení:
Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty
Alternace:
Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
relace shodných významů (
balit věci do kufru - balit kufr
)příbuznost slov -- často nejde shodný rámec (
požádat koho o co - požadovat co na kom
)
Lingvistické zdroje
FrameNet
Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (Case For Case, 1968)
tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
postupně bylo 7-8 hlavních pádů
Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
Tím vznikl FrameNet -- lexikální databáze sloves na univerzitě v Berkeley
podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
rámce mají vztahy: dědění / podrámec / využití (a další)
elementy v rámcích: core / non-core
každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
negativní i pozitivní případy patří do 1 rámce (např.
Compliance
obsahuje iviolate
), s rámci se pojí slovesa, substantiva, adjektiva, frázenejvyšší úroveň -- hodně obecné rámce (
Děj, Stupňovatelné atributy ...
)může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (
observe -> observation (Perception, Commenting), observance (Compliance)
)v různých rámcích mají lex. jednotky různé valenční vlastnosti
Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
FrameNet je volně dostupný
PropBank
Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření:
A met B, A and B met -> meet(A,B)
Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
ARG0 -- prototyp. agens
ARG1 -- prototyp. patiens
ARG2 -- typický adresát
ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
rámce: význam slovesa, argumenty + co představují --
hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument
i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
Váza se rozbila. The vase broke.
-- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.
argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné rolesets u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).
Existuje též "valenční slovník" -- slovník propozic
VerbNet
Propracovanější sém. zroj, valenční slovník verb-index/index.php (propojený s PropBankem, FrameNetem)
Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
např.
telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4
Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
syntaktický popis, sémantické predikáty
WordNet
Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
Zákl. jednotka -- synset = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
adjektiva: antonyma, synonyma, doména
adverbia: antonyma, pertainyma (k čemu se vztahuje)
Přejatá základní ontologie (nejrozšířenější (?))
Snaha, aby byl systém totožný s lidským
např.
kanárek zpívá
= 1 úroveň daleko,kanárek létá
= 2 úrovně,kanárek má kůži
= hodně úrovní
námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
neobsahuje výslovnost, etymologii, gramatické informace
EuroWordNet
Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz
go = jet, jít
), proto ani významy synsetů si přesně neodpovídají
Existuje ale interlingual index -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
Navíc vznikla top-ontology -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
ještě domain-ontology -- pro různá spec. odvětví
i 1059 base concepts (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
základní struktura musela být kvůli jiným jazykům rozšířena
Omega
Další ontologie -- jiný způsob klasifikace, hierarchie
Propojené s PropBankem -- pro slovesa jsou synt. informace
Propojené i s FrameNetem etc., část mapovaná i na WordNet
SUMO
Suggested Upper-Merged Ontology -- pro automatické odvozování
Jsou tam k tomu logické nástroje
taky navázané na WordNet
Viz též
Slajdy na stránkách na stránkách Dr. Lopatkové: ~lopatkova/lingv/index1.html
Stránka předmětu na Wiki ÚFAL (stav z r. 2008/9): courses:pfl071