Syntax highlighting of Archiv/Vybrané problémy z lingvistiky I

{{predmet|Vybrané problémy z lingvistiky I|Markéta Lopatková|PFL071}}

== Úvod - popis jazyka ==
* Jazyk - vztah mezi ''významem'' (funkcí, označované) a ''výrazem'' (forma, označující)
** ''langue'' a ''parole'' -- systém a užití
** omezíme se na jazykový význam, vynecháme pragmatiku
* Matematická lingvistika -- 3 možnosti pojetí:
** ''kvantitativní lingvistika'' (v 19. stol.)
** ''algebraická (formální) lingvistika'' (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
** ''počítačová (komputační) lingvistika'' -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
* Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit ''strukturu'' ~ význam
** vztah není 1:1 (víceznačnost, synonymie)
** ''formální jazyky'' -- existuje úplný popis, u ''přirozeného jazyka'' ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
* Popis -- buď od významu k výrazu (''generování (syntéza)''), nebo opačně (''rekognoskace'')
* Stromový popis -- obvyklý popis významu
** ''složkový''   -- <math>T = <N,Q,D,P,L></math> (<math>N</math> -- množina uzlů, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>D</math> -- relace dominance, <math>P</math> -- relace precedence (silné částečné usp., slovosled) <math>L</math> -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
*** další podmínky: jediný kořen, exkluzivita pro <math>D, P</math>, ''projektivita''
** ''závislostní''  -- <math>T = <N,Q,E,WO,L></math> (<math>N, E</math> -- konečný graf, <math>Q</math> -- ohodnocení uzlů (gram. kategorie), <math>WO</math> -- silné úplné uspořádání (pořadí slov), <math>L</math> -- ohodnocovací funkce)
** jiný problém - nevyjádří těsnější a volnější spojení (<tt>Profesor zjistil, že je jeho (hladový algoritmus) nefunkční</tt>, <tt>(Zítřejší noviny) ze včerejška</tt>)

== Funkční generativní popis ==
* Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
** 1. kniha: 1967, 10 let po Chomském (na jiných základech, ale i inspirované)
** představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
* popis - ''závislostní, stratifikační''
** 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších
* nejvýše stojí ''jazykový význam'' -- nezkoumáme mimojazykové věci, pragmatiku (''obsah''), jazyk může být vágní
* V pův. FGD zásobníkový automat generoval na významové rovině projektivní stromy
** ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu
** skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
** původní verze používala frázové stromy, později upraveno na závislostní
* Původní cíl: vytvořit "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
* Bez sémantické kontroly

=== Zákl. koncepce ===
* ''roviny'' -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání
** forma, funkce -- nižší rovina je formou vyšší roviny (vztah ''reprezentace'')
** ''hloubková syntax'' (tektogramatická) -- musí obs. všechnu informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
*** ohodnocení uzlů: ''komplexní symbol'' -- lexikální, morfologická a syntaktická informace
*** lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
*** morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
*** syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
** ''povrchová syntax'' (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
** ''morfematická'' (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémata)), komplexní jednotky: formémy (např. předl. vazby atd.)
** ''morfonologická'' -- shluky písmen: ''morfy'' (řetězy morfonémů), i suprasegmentály (takt, věta) pro zprac. řeči
** ''fonologická'' -- fonetická (složení hlásky z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou
* ''valence'' (Panevová) -- slovesa i další slovní druhy
* ''význam'' -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
* ''aktuální členění'' (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
* ''koreference''
* ''víceznačnost'' a ''vágnost'' -- vágnost zachovaná, víceznačnost rozlišená (?)

=== Analýza a generování ===
* Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
** místo analýzy až na interlingvu se používá transfer
* Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
** formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)

== Pražský závislostní korpus (PDT) ==
* Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
** my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
* 4 roviny:
** ''w-layer'' -- nezpracovaný text, včetně chyb
** ''m-layer, a-layer, t-layer'' -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
* předpřipravené rozdělení ''train, development, test''
* data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
* ''m-layer'' se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
* ''a-layer'' -- na rozdíl od FGD není kořenem sloveso, je technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
** mezi ''m-layer'' a ''a-layer'' je relace 1:1 slova:uzly (až na technický kořen ''a-layeru'')
* ''t-layer'' -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (<tt>a</tt>), modifikační slova (<tt>však</tt>))
** "slovosled" je jiný
** přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
* hrany -- vztah závislosti 
=== Závislost ===

** endocentrická, ektocentrická závislost (?)
** syntaktická, morfologická závislost -- (<tt>dívka vysoké postavy</tt> -- syntakticky nelze vypustit přívlastek)
=== Koordinace ===
Sém. vztah '''koordinace'''(přiřaďování) -- členy označují ''různé'' entity, které mají stejnou sémantickou roli, jsou rovnocenné, mají stejnou synt. platnost.
* Vyjádření syntakticky různě, primárně: ''parataxe'' (souřadné spojení), ''hypotaxe'' (podřadné spojení: <tt>maminka s tatínkem</tt>)
* V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
* <tt>neboť</tt> a <tt>protože</tt> se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: <tt>neboť</tt> nestojí nikdy na zač. souvětí)
* Sémantické vztahy v kooridnaci:
** ''kopulativní'' (<tt>a</tt>)
** ''adverzativní'' (<tt>ale</tt>)
** ''disjunktivní'' (<tt>nebo</tt>)
** ''gradační'' (<tt>nejen, ale i</tt>) -- v některých jiných lingv. tradicích se nerozlišuje
** ''příčiný'' (<tt>neboť</tt>)
** Spec. pro PDT -- oprava, zahrnutí, konfrontace, kontrast, matematika
* Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
* v PDT spec. konstrukce, 1 uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
** ef. rodič / syn (pro společná rozvití -- <tt>(štavnaté ^a^ sladké) ovoce</tt>), zvl. typ uzlu -- spojovací uzel
=== Apozice ===
Oba členy pojmenovávají 1 referent, stejný větný člen, zaměnitelný, kongruentní
* Různé pojetí, např. Šmilauer považuje za apozici i <tt>Pan Novák</tt>, <tt>Prezident Klaus</tt>, v PDT je to přívlastek
* Formálně se zachycuje stejně jako koordinace
* Někdy je problém ji odlišit od koordinace (<tt>"Naši sousedé, Marie a Milan, ..."</tt>)
* Někdy -- věci v závorkách: <tt>"''Obč. dem. strana'', dále ''ODS'', ..."</tt> -- spojovací výraz je čárka
=== Parenteze ===
Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví
* Něco v závorkách, příp. odd. čárkou: <tt>Mohl byste, prosím, přijít?</tt> (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
** <tt>prosím, řekl bych</tt> -- ''ustálená parenteze'', de facto částice, frazémy
* ''Větná parenteze'' -- např. věta v závorce
* ''Větný člen jako parenteze'' -- <tt>Přišel pozdě (včera).</tt>
* oslovení, elipsa, citoslovce ...
* Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso
=== Ostatní nezávislostní vztahy ===
* Tech. kořen -> ef. kořen věty (sloveso)
* Synt. nejasné výrazy (<tt>asi, snad</tt>), odkazy k předch. textu (<tt>však</tt>)
** rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
* Seznamy -- názvy, cizojazyčné výrazy
* Frazémy (spec. funktor <tt>široko <- daleko_(DPHR)</tt>)

== Valence ==
Valence je ''zákl. synt.-sém. informace'' -- de facto drží záv. stromy pohromadě.
* '''Def.:''' Schopnost lex. jednotky ''otevírat pozice'' dalším lex. jednotkám
** spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
* Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
** Valence má zachytit, které ''sémantické participanty'' mají být přítomny (termín ''sémantický participant'' se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha ''argumentů'', které na sebe slovo váže.
** Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
** Např. slovesa: prázdná valence (<tt>prší, sněží ...</tt>), 1 doplnění (<tt>běžet, jít ... </tt>), 2 doplnění (<tt>vyrábět, dělat, natírat ...</tt>), 3 doplnění (<tt>dávat ...</tt>)
* Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
* Nelze zachytit pravidly, uchovává se '''ve slovníku'''. Takový slovník už zachycuje hodně syntaktických informací.
* Důležité pro:
** NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
** Učení češtiny
* Patří na ''t-rovinu'' - úzce se týká významu slov.
** Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
* Výzkum ve FGD -- od 60. let -- Panevová
* Slovní druhy -- primárně: ''slovesa'', ale i ''substantiva, adjektiva, adverbia''
** Každý autosémantický druh je charakterizován valencí (frame-bearing words)
** např. <tt>zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho</tt>
** Pro slovesa je nejpropracovanější, nejpřesnější teorie
** Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)

=== Doplnění ===
Dělení doplnění:
* ''obligatorní'' / ''fakultativní'' -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měi sémanticky úplný a srozumitlený zápis
** některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
* ''aktanty'' -- odpovídá objektům, participanty / ''volná doplnění'' -- odpovídá přívlastkům, příslovečným určením apod.
** aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
** volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
** aktanty jsou obvykle ''rekční'' (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
** volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
** aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní
** aktanty způsobují ''posouvání'' -- 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
*** např. <tt>Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!)</tt>, nebo: <tt>The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.</tt>
*** Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
*** Hodně sémantickou valenci prosazoval už Tesnière, z něj právě FGD vychází
*** Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
** ACT může být (mimo jiné, dalo by se dále specializovat):
*** konatel
*** nositel vlastnosti nebo děje: <tt>Tráva je zelená. Petr spí.</tt>
*** kauzátor (nepersonální původce děje): <tt>Vítr otevřel okno.</tt>
*** possesor: <tt>Petr má auto. Petr prodal auto</tt> (v 2. případě možná i konatel)
*** proživatel: <tt>Otci se daří dobře. Kniha se mi líbí.</tt>
*** zasažený objekt: <tt>Auto se rozbilo.</tt>
*** předávaná informace: <tt>Ozvalo se: "Přijďte brzo!"(ACT)</tt>
** Podobně PAT může být:
*** zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): <tt>Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
*** vlastník: <tt>Kniha patří Janovi.</tt>
*** proživatel: <tt>Něco vadí někomu(PAT)</tt> (proti <tt>líbit se</tt>, kde lze udělat bezpodmětnou větu jako <tt>"Líbí se mi v lese."</tt>)
*** recipient: <tt>Vynadal dětem. Ozval se příteli.</tt>
*** informace: <tt>Mluvit o něčem</tt>
** kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
** EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
*** <tt>Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).</tt>
*** je ale méně vyhraněný než ADDR a ORIG
*** např. 2 pozice u verb dicendi: <tt>Vyprávěl o nich(PAT), že ...(EFF).</tt>
** ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
*** ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (<tt>Informovat někoho(ADDR) o něčem(PAT).</tt>)
*** ORIG -- látka původu, původce předmětu/informace výměně: <tt>Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)</tt>
*** ADDR a ORIG se špatně kombinují
* ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa <tt>přijít, chovat se</tt>)

=== Valenční informace ve slovníku ===
* Jedno slovo může mít několik významů -- několik různých valenčních rámců
** např. <tt>dávat-1</tt> "rozdávat karty" -- ACT, <tt>dávat-2</tt> "běžné" -- ACT PAT ADDR

Základní pojmy:
* ''lexém'' -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
** základní jednotka ve slovníku, sdružuje všechny lex. jednotky
** pozor, někdy se lexému taky říká lex. jednotka
* (základní) ''lexikální jednotka'' (lexical unit, lexie)
** komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
** forma: různé tvary (osoba, pád, etc.), zachycuje se ''lemmatem'' 
** funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
** vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
* ''lemma'' (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova
* ''formy'' -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- ''paradigma''
* ''varianty'' -- různá lemmata, která se kryjí jako lex. jednotka (např. <tt>myslet / myslit</tt>, někt. tvary mohou být shodné)
* ''homografa''/''homonyma'' -- stejná forma, různé významy
** např. <tt>žít</tt> (obilí / život), <tt>stát</tt> (na nohou / peníze / sníh se střechy)
** potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
** jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
** je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak

* valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
* různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
** různé participanty mohou být vůbec vyjádřeny
* idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu

== Lingvistické zdroje ==
== Odkazy ==

Slajdy na stránkách na stránkách Dr. Lopatkové: [http://ufal.mff.cuni.cz/~lopatkova/lingv/index1.html]

Stránka předmětu na Wiki ÚFAL (stav z r. 2008/9): [https://wiki.ufal.ms.mff.cuni.cz/courses:pfl071]

[[Category:Matematická lingvistika]]