Tohle je neúplný přepis poznámek, částečně ze slajdů, částečně z původní verze a ze zápisků Cheho a QZuzky na fóru - User:Tuetschek 20:40, 14 Jan 2009 (CET)

Úvod -- počítačová lingvistika

Podobory

{{TODO|}}

Přirozený jazyk

Funkce:

  • Popis reálných věcí, k tomu zavádění pojmů

  • Popis abstraktních vztahů, zobecňování

  • Schopnost rekurze, modelování partnera (nepřímá řeč)

  • Spolupráce partnerů, definice soc. vztahů (vykání)

  • Metajazyková komunikace, jazyk obsahuje sám sebe

Vlastnosti komunikace:

  • Všeobecnost, využitelnost, obsah (vyjádří cokoliv, na rozdíl od specializovaných jazyků)

  • Vágnost, Zkratkovitost (jako základ kooperace v myšlení)

  • Vícevrstevnost (upřesňující dialogy, metajazyková komunikace)

Základní pojmy

Máme lemma, což označuje reprezentativní tvar slova (to ze slovníku) například pes, poté můžeme označit všechny tvary tohoto slova jako lexémy např. pes, psa, psům... Každý lexém je složen z jednoho nebo více morfémů (kořen, předpona, přípona, koncovka atd...).

Při taggingu vzniká morfologická značka (běžně nazývaná tag). Je to sumarizací gramatické informace o hledaném slovu (pozici = občas mluvíme o pozici ve větě) v konkrétním kontextu. Příklad jednotlivých tagů.

  1. Slovní druh

  2. Detailní určení slovního druhu

  3. Jmenný rod

  4. Číslo

  5. Pád

  6. Přivlastňovací rod

  7. Přivlastňovací číslo

  8. Osoba

  9. Čas

  10. Stupeň

  11. Negace

  12. Aktivum/pasívum

  13. Nepoužito

  14. Nepoužito

  15. Varianta, stylový příznak apod.

  16. Vid

Jedno slovo ale můžu otagovat více způsoby. Proto tag vzniká většinou automaticky na základě morfologické analýzy a následné desambiguace. Desambiguace je výběr konkrétního tagu.

např. ve větě Větry vanou od západu. se při morfologické interpretaci věty nejprve přiřadí morfologickou analýzou tvaru vanou dvě lemmata a dvě morfologické interpretace:

<pre>

  1. lemma = vana, subst. fem. sg. instr.

  2. lemma = vát, 3. os. pl. préz,

a poté se při morfologické desambiguaci vybere náležitá 2. interpretace.

Někdy se ale provádí i syntaktická desambiguace, kdy se řeší, co na sobě jak závisí (co specifikuje co).

např. František hrál v altánu šachy se svým přítelem jako František hrál v altánu (šachy se svým přítelem) nebo František (hrál) v altánu šachy (se svým přítelem)

Lematizace znamená, že hledáme k slovnímu tvaru ten správný základní tvar. Při generování naopak hledáme z lematu a množiny značek správný slovní tvar.

Slovní druhy a jejich kategorie

  • slovní druhy: substantivum, adjektivum, pronomen, numerale, verbum, adverbium, prepozice, konjunkce, partikule, interjekce

  • pády: nominativ, genitiv, dativ, akuzativ, vokativ, lokál, instrumentál

  • číslo: singulár, plurál, duál

  • rod: maskulinum animalum/inanimalum, feminimum, neutrum

  • stupně srovnávání: pozitiv, komparativ, superlativ

  • slovesný čas: prézens, préteritum, (perfektum), futurum

  • slovesný rod: aktivum, pasivum

  • slovesný způsob: indikativ, kondicionál, imperativ

  • slovesný vid: perfektivum, imperfektivum

  • větné členy: subjekt, predikát, objekt, atribut, adverbiále

Různé

{{TODO| nějak roztřídit!}}

  • deklinace = skloňování (pro podst. jména, příd. jména, zájmena, číslovky)

  • konjugace = časování (pro slovesa)

  • lemma, lexém = slovníková informace o nějakém slově

  • autosémantická slova = slova plnovýznamová, která obsahují nějakou vlastní informaci a mohou stát odděleně

  • synsématická (polosémantická) slova = slova, která nemůžou stát odděleně, nesou informaci jen společně s jinými slovy, např. zvratné zájmeno, pomocná slovesa minulého času, určitý a neurčitý člen apod.

  • flexe = ohýbání slov, skloňování a časování.

Jazykovědné disciplíny a související pojmy

  • lexikologie a lexikografie – zabývá se slovní zásobou

  • morfologie – zabývá se tvořením tvarů slov a jejich významem, v širším smyslu i tvořením nových slov

  • syntax – zabývá se stavbou věty a vztahy vět v souvětích

  • fonetika a fonologie – zkoumá zvukovou stránku jazyka

    • základní jednotkou je foném – nejmenší jednotka, která může rozlišit význam, např. tři vs. dři

  • langue / parole – jazykový systém / jeho použití v komunikaci (mluva)

Morfologie

Morfém

Morfologie studuje vztahy jednotlivých částí slov. Základní jednotkou, kterou se zabývá, je morfém -- nejmenší znaková jednotka nesoucí význam. Morfémy jsou lexikální (nesou "slovníkovou informaci") a gramatické (nesou informaci o gramatické kategorii, např. pádu, čísle, rodě).

Příklad:

  • za|hrad|ou = prefix (lexikální, slovotvorný morfém) + základ slova čili kmen (lexikální, samostatný morfém) + koncovka (gramatický morfém, signál 7. pádu, singuláru)

V rámci jednoho kmene se mohou v různých tvarech slova měnit některé hlásky. Takovému procesu říkáme alternace. Jednotlivé varianty takového morfému se pak nazývají alomorfy.

Příklad:

  • Bůh -- Boh|a -- Bož|e = alternace v různých pádech slova, varianty Bůh, Boh, Bož jsou alomorfy.

Pro českou morfologii je charakteristická pravidelnost, např. "ý" indikuje tvrdé přídavné jméno nebo od něj odvozené slovo (výjimky: "úterý", "prý", "čehý"), typická je i alternace.

Morfologická typologie jazyků

Jazyky se podle svého chování v morfologii dělí do několika hlavních typů. Reálné jazyky většinou ale nejsou úplně "čisté" typy, mívají vlastnosti několika různých typů. Základní typy jsou:

  • Analytické, kde zhruba odpovídá vztah 1 slovo = 1 morfém, hlavní podtyp jsou jazyky izolační. Příkladem je vietnamština, čínština nebo v ne úplně čisté formě angličtina.

  • Syntetické, kde většinou jedno slovo obsahuje více morfémů. Má dva různé podtypy:

    • Aglutinační, kde jeden gramatický morfém nese informaci vždy o jedné gramatické kategorii (a takové morfémy se pak spojují za sebe, jedno slovo má pak několik přípon, které ukazují každá jednu jeho gramatickou kategorii), příkladem je maďarština nebo japonština.

    • Flektivní, kde gramatické morfémy mají více funkcí najednou, potom má slovo méně koncovek, které nesou více informací (a často nejsou přípony jednoznačné), příkladem je latina, starořečtina nebo slovanské jazyky (i čeština).

  • Polysyntetické, kde platí vztah slovo = věta. Jedno slovo se hromaděním předpon a přípon rozroste tak, že informace v něm obsažená nakonec odpovídá celé větě. Příklady se naleznou mezi eskymáckými a indiánskými jazyky.

Izolační jazyky mívají pevně daný slovosled (pomáhá totiž určovat syntaktické kategorie, např. v angličtině se podmět pozná podle toho, že stojí na začátku věty), syntetické naopak mají v oblasti slovosledu větší volnost (v češtině poznáme podmět podle prvního pádu a stát ve větě může kdekoliv).

Tohle je jen jeden z možných přístupů k typologii jazyků, v jiném můžeme jazyky dělit např. podle syntaxe, kdy přihlížíme k typickému pořadí subjektu (S), predikátu (V) a objektu (O) ve větě, jazyky se pak dělí na typy SVO, SOV apod.

Morfologické zpracování jazyka

Jde nám o popis morfologie nějakého jazyka, zaznamenání informací, které s sebou nese každý slovní tvar v nějakém textu, tj. o:

  • lexikální (odkaz na lemma) a

  • gramatické informace (značky pro jednotlivé gramatické kategorie, které dané slovo může nést -- značky, tagy).

V morfologii můžeme postupovat od:

  • morfémů -- slova považujeme za řetízek morfémů

  • lexémů -- slovo považujeme za transformaci příslušného slovníkového hesla podle nějakých pravidel

  • slov -- využívat vzory; od základního tvaru se pomocí vzorů vytvářejí jednotlivé tvary, tohle funguje i tam, kde ostatní selhávají, např. když jeden morfém reprezentuje více gramatických kategorií (v češtině koncovka í může značit podstatné jméno, přídavné jméno i sloveso)

Částečná morfologická disambiguace založená na pravidlech je postup, kdy se pomocí spolehlivých pravidel redukuje počet možných značek pro nějaké slovo -- odstraníme ty, které se opravdu nemohou na daném místě vyskytovat (její jednoduchá aplikace je kontrola gramatiky -- odebrání všech značek nějakého slova znamená, že věta není v pořádku). Na FF UK umějí pro češtinu s jistotou vyškrtnout v průměru cca 1/3 značek.

Morfologická analýza je proces, kdy vzniká seznam lemmat a značek popisujících jednotlivé slovní tvary v textu. Morfologické značkování (tagging) je proces výběru jediné správné značky pro nějaký slovní tvar, často se přitom využívá statistika. Není to jednoduché, protože některá slova mají mnoho tvarů shodných (nejvíce v češtině -- měkká přídavná jména podle vzoru "jarní": 27 shodných tvarů), časté jsou i jazykové dublety, kde nepoznáme ani slovní druh ("jedu"). Nejlepší programy mají cca 95% úspěšnost, na angličtině až 98%. V češtině se zlepší po vyškrtání pomocí disambiguace jen o 0.2%.

Lemmatizace je proces výběru správných lexémů (slovníkových hesel) ke všem slovním tvarům v textu. Je důležitá pro vyhledávání v textu. Výsledek není jednoznačný (např. "zahradní" -- "zahrada", "zahradní" nebo "hrad"?).

Generování je opačný proces -- máme lemma a všechny gramatické kategorie a vytváříme správný slovní tvar. Dá se použít např. k vytváření návrhů oprav při kontrole pravopisu.

Základem všech aplikací morfologie je rozsáhlý slovník, např. Hajičova česká morfologie zná 800 000 slov po 15 letech vývoje. Při zpracování slovníku Diderot se našlo asi 70 000 nových pojmů (50 000 názvů a 20 000 odborných slov).

[http://www.ling.helsinki.fi/~koskenni/esslli-2001-karttunen/ Two-Level-Morphology]

Je systém vyvinutý Finskými vědci na zač. 80. let; byl to první obecný model morfologie přirozeného jazyka. Mechanismus je obecný, pro každý jazyk je nutně vytvořit slovník a pravidla, která na sobě vzájemně nezávisí. Vychází z konečných automatů. Má 2 úrovně morfologie -- lexikální a povrchovou. Vlastnosti:

  • stavy podle jednotlivých hlásek slova

  • paralelní aplikace pravidel, paralelní vyhledávání lemmatu a morfologická analýza

  • pravidla (podmínky) se mohou vztahovat k jedné úrovni nebo k oběma zároveň

  • lexikální vyhledávání (trie, letter tree) a morfologická analýza probíhají součastně

Mám slovo a chci zjistit, jak z čeho je složené nebo chci složit nějaké slovo a tohle mi řekne, jak má vypadat. Napříkladhttp://stackoverflow.com/a/41222069/1392034 na slově tries:

lexical level: try+ssurface level: tries

{{TODO| líp vysvětlit!}}

Česká morfologie (Hajič)

Vývoj od roku 1989. Používá 15-místných pozičních značek (tagů), kde každá pozice má svůj pevně určený význam. Ne každé slovo má samozřejmě vyplněné všechny pozice, volné jsou nahrazeny pomlčkou; některé kategorie se dokonce navzájem vylučují. Kategorie jsou:

#POS -- part of speech (slovní druh) #SUBPOS -- poddruh slovního druhu, např. "přivlastňovací příd. jm.", "osobní zájmeno" atd., značky jednotlivých podkategorií se nepokrývají, tedy první kategorie je tu jenom pro lepší čitelnost

#GENDER -- gramatický rod (mužský životný, neživotný, ženský, střední) #NUMBER -- gramatické číslo (singulár, plurál, duál (např. "nohama dítěte" proti "nohami stolu"))

#CASE -- pád #POSSGENDER -- přivlastňovací rod, tj. rod toho, čemu se přivlastňuje (pro přivlastňovací adjektiva)

#POSSNUMBER -- přivlastňovací číslo #PERSON -- osoba (slovesa)

#TENSE -- čas (minulý, přítomný, budoucí) #GRADE -- stupeň přídavného jména

#NEGATION -- negace (afirmativ, např. "pěkný" a negativ, např. "nepěkný") #VOICE -- slovesný rod (aktivní, pasivní)

#VAR -- styl slova (první-základní varianta, hovorová, zkratka ...)

Příklad:

  • nejnezajímavější = AAFP3----3N---- (adjective, regular, feminine, plural, dative, superlative, negated)

Zobrazení není jednoznačné, některým slovům může být přiřazeno více značek, pokud daný stejný tvar přísluší více různým gramatickým kategoriím.

Aplikace morfologie

Kontrola překlepů

Žádáme nalezení všech překlepů a jejich (co nejsamostatnější) opravu, zkoušení kontextu opravy, co nejméně falešných poplachů (neznámé slovo nemusí být nutně špatné) a co nejrychlejší práci. To je velmi obtížné splnit. Je menší zlo, když systém neodhalí všechny chyby, než když jich odhalí víc. Možné přístupy jsou:

  • Porovnávání řetězců -- máme buď seznam všech možných tvarů jazyka (hl. pro izolační jazyky, ale dnes nevadí ani pro flektivní), nebo pro na tvary bohatší jazyky (např. flektivní nebo aglutinační) slovník lemmat a morfologická analýza.

    • Je to spolehlivé a jednoduché, ale pomalé, náročné na kvalitu slovníku a místo na disku, nerozezná to neznámá slova od chybných. Uživatel nemůže do slovníku dodat slovo ve všech tvarech, ale jen jednotlivé tvary.

  • Srovnávání skupin znaků (dvojice, trojice) -- hledáme v jazyce nedovolené kombinace znaků. Je to rychlejší a nezávislé na slovníku, pokud jsou nová slova správně utvořená, ale neumožňuje to přidat slovo do slovníku a většinou je výsledek velmi neúplný.

Možná vylepšení:

  • vzít v úvahu okolnosti vzniku chyb (blízké klávesy, prohozené "Y" a "Z" apod.)

  • zohlednit statistiku chyb

  • zohlednit možné pravopisné chyby ("mě" a "mně", "jsem" a "jsme"), zapojení syntaxe a sémantiky -- spíš pro gramatický kontrolor, ale můžu kontrolovat např. velmi časté spojení předložek s přídavnými jmény, např. "ke mě" je špatně, protože se pojí se 3. pádem (případy jako "ke mě ošetřujícímu doktorovi" zanedbám)

  • heuristika na oddělení chyb a neznámých slov: např. nekontroluju slova velkými písmeny

  • využít kontext (korpusy apod.)

Je nutné nějak komunikovat s uživatelem, říct mu, kde má chyby a jak je má opravit; rozhodnout, co opravit samostatně. Pro "míru chyby" slova se používá Levenshteinova míra -- míra podobnosti řetězců. Ta je založená na elementárních operacích: záměna znaku na místě, prohození, vypuštění a přidání písmene, každá operace nutná k převedení chybného slova na nějaké správné stojí jeden bod.

  • Pokud nějaké chybné slovo je velmi podobné jednomu správnému (převedení na jedno správné stojí málo bodů, na ostatní hodně), můžu opravit samostatně.

  • V případě více rovnocenných možných oprav se zeptám uživatele.

  • Pokud neznám žádnou "lacinou" opravu, jen slovo označím jako chybné.

Systém ASIMUT

Systém Automatická Selekce Informací Metodou Úplného Textu (Králíková, Panevová 1990). Sloužil pro automatické vyhledávání (ohýbaných) slov v textech na základě parametrů (hlavně substantiv a adjektiv). Nepotřeboval žádný rozsáhlý slovník, vycházel z vlastností slov posbíraných na základě retrográdního slovníku (slovníku, kde jsou slova seřazená podle abecedy, ale od konce). Systém nepoužíval retrográdní slovník přímo, ale pouze si na jeho základě vytvořil jakýsi klíč pro určování vzorů slov a ten pak používal.

Měl dva základní moduly:

  • Vyhledávací modul -- jemu se předávaly dotazy složené z podstatných a přídavných jmen v základním tvaru, spolu s operátory:

    • ! = vyskloňuj

    • , = "nebo"

    • -1- = bezprostředně vedle sebe

    • -2- = maximálně ob dvě slova od sebe

    • -3- = ve stejné větě

    • -4- = ve stejném odstavci

    • Např. vzdálenost!, odstup! -3- rodinný! -1- domek!

  • Jazykový modul -- vycházel z retrográdního slovníku, porovnává písmena základního tvaru postupně odzadu (diakritika = zvláštní znaky), dokud nenajde jednoznačně vzor pro skloňování. Pak slovo vyskloňuje.

Navíc používalo negativní slovník -- seznam nedůležitých slov, nad kterými se nehledalo, a konkordanci -- index: všem důležitým slovním tvarům v textu se přiřadila adresa a frekvence výskytu, pak se hledalo jen na konkordanci.

Problémy: často nejde najít jednoznačně vzor pro skloňování (klasifikace je příliš hrubá), proto se skloňuje podle více vzorů najednou, i když to vytváří tvary, které ke slovu nepatří (doufáme, že nemají žádný smysl a v textu je nenalezneme). Retrográdní slovník měl malý rozsah, proto se přidávalo dost výjimek. Navíc toto nefunguje moc dobře pro slovesa.

MOZAIKA (MOSAIC)

Morphologically Oriented System of Automatic Indexing and Condensation byl systém vyvinutý v 70. letech na MFF (Z. Kirschner a tým) pro indexaci dokumentů (teoreticky i tvoření souhrnů, prakticky seznamů klíčových slov). Podobně jako ASIMUT nepoužívá rozsáhlé slovníky, ale lingvistické poznatky.

Využíval pravidelnosti slovotvorby v češtině (teoreticky i v dalších jazycích):

  • angličtina: -or, -er – činitel, -tion – činnost, -ity – vlastnost, ...

  • čeština: -ač, -ič, -čka, -er, -or, -dlo, -metr, -graf, ... – nástroje a přístroje, -ace, -kce – činnost, -ita, -ost – vlastnost, ...

Pro pokrytí tématické oblasti elektrických obvodů stačilo 800 přípon, pro celou technickou terminologii by jich podle Z. Kirschnera stačilo 2000. Kromě toho měl:

  • negativní slovník

  • jednoduchou gramatiku (v jazyce Q-systémy) pro identifikaci jmenných skupin (např. operační zesilovač Tesla)

Postup zpracování textu (na vstupu je nijak nezpracovaný text se zachováním veškerého členění, diakritiky apod., výstup je seznam 10 nejčetnějších termínů podle důležitosti):

  1. lematizování a morfologická analýza, vyřadíme slova z negativního slovníku (nejsou k tématu), slova příliš krátká nebo s nepovolenými kombinacemi písmen

  2. syntaktická analýza pro identifikaci jmenných skupin (několikaslovné termíny), čím přesnější termín, tím lépe (do "důležitostí" termínů se započítávaly i "podtermíny")

  3. vážené ohodnocení – podle "důležitosti" termínů a jejich pozici v textu, nejvíce hodnoceny nadpisy, pak první a poslední odstavce, totéž s větami; váhy exponenciální

  4. normalizace – nejčastější termíny získaly 100 bodů, zbytek poměrně

Syntax

{{TODO|}}

  • Strom závislostní, složkový

    • závislostní strom je preferovaný v jazycích s volným slovosledem, nedává informaci o vzniku věty, zaměřuje se na vztahy mezi jednotlivými členy

    • složkový strom je vhodný pro jazyky s pevným slovosledem, neřeší vztahy, oproti závislostnímu stromu obsahuje některé zbytečné vrcholy.

  • Neprojektivita -- Například věty:

Soubor se nepodařilo otevřít. Vánoční nadešel čas. Tuto knihu jsem se mu rozhodl dát k narozeninám. Jejich závislostní stromy mají v projekci křížící se hrany.

Transformační gramatika

{{TODO|}}

  • Předchůdci -- deskriptivismus (strukturalismus, Bloomfield, teorie bezprostředních složek, nevysvětluje), analytická syntax (Jespersen 1937), kategoriální gramatika (Ajdukiewicz 1935)

  • Už předchůdci: koncept povrchové a hloubkové struktury, asymetrický dualizmus

  • Hlavní teorie: Noam Chomsky: Syntactic Structures (1957), Aspects of the Theory of Syntax (1965) = Standard Theory

    • 3 komponenty:

      • báze - bezkontextová pravidla generující složkové stromy (tyto stromy jsou označovány jako phrase markers)),

      • transformační komponenta - transformační pravidla nad phrase markers

        • obligatorní - transformace musí být provedena, pokud to je možné

        • fakultativní - volitelná transformace; šlo například o transformace pasivizační, tvoření otázek, tvoření negací,...

      • fonologický komponent - regulární výrazy, přepis na fonetickou interpretaci

    • generativní procedura -- BKG / KG, není schopna zachytit vztahy mezi variantami vět

      • např. oznamovací a tázací větou - řešitelné např. zavédením něčeho jako typů terminálů/neterminálů (moc složité, nepoužitelné)

    • transformační složka -- pravidla, která z phrase markers vytvářejí povrchovou strukturu věty; strukturní index řetězců je řez stromem(matchuje se na nějakou sekvenci vrcholů, může obsahovat wildcard X), strukturní změna (pokud se strukturní index namatchuje, obsahuje informace o tom, co se má dělat s podstromy namatchovaných vrcholů).

  • Vývoj: Extended Std. Theory (1968), Government & Binding (1980's), Minimalism (1990's) -- logická a fonetická rovina.

Tree Adjoining Grammars

{{TODO|}}

  • Joshi, Levy, Takahashi 1969; podobné BKG, ale přepisují se stromy, ne neterminály (symboly); většinou silnější (až KG v někt. variantách)

  • pravidla = spec. stromy s připojovacím uzlem, zákl. stromy: iniciální (zákl. valenční vztahy, má neterminály + symboly substituce) a pomocné (rekurze, 1 připojovací uzel, stejný neterminál jako root).

  • Všechny stromy vznikají operací substituce (nahrazení subst. vrcholu stromem, jehož kořen má stejný neterminál) nebo připojením (vlepí se pomocný strom mezi připojovací uzel a jeho podstrom, ten se přidá opět na připojovací uzel).

  • Proces končí, když už nic nejde nahradit, na pořadí operací nezáleží.

  • Rozšíření -- Lexikalizované TAG: každý elementární strom musí obsahovat aspoň 1 terminální symbol; Filtered TAG: omezení operací rozšíření pomocí proměnných top a bot (např. pro shody v rodě, čísle, pádě)

  • Určeno pro praktické použití, existuje XTAG na Univ. of Pennsylvania -- popis angličtiny pomocí TAG

  • wen:Tree_adjoining_grammar

  • Úvod do TAG

Lexical-Functional Grammar

{{TODO|}}

  • c-structure (složková struktura, spojování slov do frází), f-structure (funkční vztahy slov ve větě, matice atribut, hodnota, vnořování)

  • každá c-struktura se spojuje jen s jednou f-strukturou, ale ne naopak

  • každé pravidlo c-struktury má informace, jak přejít na f-strukturu (informace o funkci jako: "subjekt nadřízeného uzlu je tento uzel")

  • skládání f-struktury celé věty: pomocí unifikací

Unifikační a kategoriální gramatiky

{{TODO|}}

Unifikační gramatiky

  • Podobné LFG, ale založené na popisu statické synt. struktury, ne na generování

  • Informace se skládá z dílčích, základem je 1 rys, hodnoty rysů mohou být jednoduché nebo komplexní (další sestava rysů). Unifikace sestav rysů je sjednocení kompatibilních množin rysů (nebo "nedefinováno").

  • wen:Generalised_phrase_structure_grammar

    • so-called "meta-rules", which are rules generating the productions of a context-free grammar

    • augments syntactic descriptions with semantic annotations that can be used to compute the compositional meaning of a sentence from its syntactic derivation tree

  • wen:Head-driven_phrase_structure_grammar

    • The formalism is based on lexicalism. This means that the lexicon is more than just a list of entries; it is in itself richly structured. Individual entries are marked with types. Types form a hierarchy.

    • The basic type HPSG deals with is the sign. Words and phrases are two different subtypes of sign. A word has two features: [ PHON ] (the sound, the phonetic form) and [ SYNSEM ] (the syntactic and semantic information), both of which are split into subfeatures. Signs and rules are formalized as typed feature structures.

    • Signs of type phrase unify with one or more daughters and propagate information upward.

    • Although the actual grammar of HPSG is composed entirely of feature structures, linguists often use trees to represent the unification of signs where the equivalent AVM would be unwieldy.

Kategoriální gramatiky

  • wen:Categorial_grammar

Funkční generativní popis

{{TODO|}}

  • Hajičová, Panevová, Sgall 1986

  • Stratifikační teorie, 5 rovin (forma a funkce -- vyšší rovina reprezentuje funkci nižší):

  • závislostní, generativní (ale i analýza)

  1. fonetická

  2. fonologická

  3. morfématická

  4. povrchová (má význam hlavně pro analýzu)

  5. tektogramatická

  • tektogramatická rovina: teorie valence (Kuryłowicz 1949, Tesniere 1959, Fillmore 1968), větné členy vyžadované urč. slovesy, podst. jm. a adjektivy

    • aktanty: ACT (aktor), PAT (patiens), ADR (adresát -- nepřímý předmět), ORIGO (původ), EFF (výsledek), každý jen jednou až na koordinace; pro každé sloveso: obligatorní a fakultativní (dotazový test)

    • volná doplnění: mohou se opakovat

    • Valex -- valenční slovník (Lopatková, Žabokrtský 2007)

Nástroje pro syntaktickou analýzu

Augmented Transition Networks

{{TODO|}}

wen:%20Augmented_transition_network, viz také Lingvistické_aspekty_umělé_inteligence#Druhy_syntaktick.C3.A9_anal.C3.BDzy

  • Woods 1970, Umožňuje zapisovat a analyzovat BKG

  • Spec. sítě (konečný automat a backtracking), průchod větou a přechod přes jednotlivá pravidla

  • Hrany v síti:

    • CAT -- přechod do dalšího stavu, pokud je nalezen

    • JUMP -- přchod do dalšího stavu bez hledání (např. pro nepovinné kategorie)

    • SEEK přechod k podsíti

Q-Systémy

{{TODO|}}

wen:Q-systems

  • Alain Colmerauer, Montréal 1969, formalizmus pro transformaci linearizovaných grafů (DAG), reprezentujících věty; unifikace

  • Chart parser, linearizované grafy složeny z atomů, stromů (DAG, do jednoho vrcholu nejde žádná hrana = kořen) a seznamů, spojených operátory -DANS- (inkluze), -HORS- (prázdný průnik), -ET-, -NON-, -OU-, =, " (nerovno)

  • Proměnné: atomy A-F, stromy I-N, seznamy U-Z, zápis: A3*.

  • Pravidla: x == y / n je-li n splněno, přepiš x na y. Backtracking, pozor na zacyklení.

  • Rozkládání znaků: $$AUTOMATON = 'A','U','T','O','M','A','T','O','N'

  • Závorky (. .)

  • Postup aplikace (jednoho Q-systému) lze reprezentovat acykl. grafem s 1 poč. a 1 konc. vrcholem -- řetězcový graf: vrcholy bez větvení (+) a s větvením (-1-,-2-)

    • Přidávání všech možných aplikací pravidel = řetězců hran, dokud nejsou vyčerpány všechny možnosti

    • V ideálním případě mám pak 1 strukturu, spojující poč. a konc. vrchol, jinak je chyba ve vstupním řetězci nebo systému pravidel.

  • Q-systémy se do sebe daly vnořovat, výstup jednoho se dal použít jako vstup jiného, např. TAUM METEO obsahuje 15 vnořených Q-systémů.

Kontrola gramatiky

{{TODO|}}

Co kontrolovat? V češtině: shodu, interpunkci, neprojektivní konstrukce, zájmena , mně. Těžké získat data, která nejsou nijak kontrolována.

Jak kontrolovat?

  • Chybové vzorky -- pro jazyky s pevným slovosledem, lokální chyby

  • Gramatika -- pro volnější slovosledy: nelze rozeznat chybnost vzhledem k nedokonalé gramatice a opravdu

RFODG (Robust Free-Order Dependency Grammar)

{{TODO|}}

  • jedno pravidlo -- správné i chybné konstrukce, výpočet: 3 fáze -- vždy rozhodnutí, jak se bude pravidlo používat

  • chyba -- není cesta od začátku do konce -- buď chybí kus gramatiky (častější) nebo je chyba v textu

  • fáze:

    • pozitivní projektivní -- přísné uplatnění pravidel

    • negativní projektivní nebo pozitivní neprojektivní -- uvolnění někt. podmínek, přibližný výpočet (např. A.rod <> N.rod)

    • negativní neprojektivní -- neprojektivní, uvolnění podmínek typu "stojí vedle sebe".

  • výstup: spec. složkový strom

  • Holan 2001: rychlejší

LanGR

{{TODO|}}

  • P. Květoň 2003, jiný grammar check pro češtinu, původně morfologická desambiguace

  • pozitivní, negativní pravidla, neomezený kontext; psáno ručně na základě korpusu; nezávislá, uspořádaná v cyklech

  • redukční metoda, snaha o 100% přesnost (??)

  • pravidlo má 4 části: kontext, desambiguační část, report a akce

  • Najde minimum chyb, ale neotravuje; používá se v MS Office

  • Účinné pro češtinu: např. mezi každá dvě určitá slovesa je potřeba čárka nebo spojka apod.

Strojový překlad

{{TODO|}}

  • překládat nejde slovo od slova, ani jen s morfologií, ani se syntaxí ani s významem slov -- problémem je i kontext, překlad kultury

    • tedy úplně správný automatický překlad není možný, počítače můžou fungovat jen tam, kde stačí nižší kvalita, u textu jednoduchého jazykem nebo oborem

  • problémy např.: anglicko-japonský překlad slov označujících jednotlivé druhy vaření si vůbec neodpovídá, "remove" se v němčině dá přeložit asi 6 variantami, víceslovné termíny nebo kompozita -- jak interpretovat? Závislost na situaci: "open" na dveřích, na mikrovlnce, krabici od mléka, "validate" / "entwerten" / "označit" jízdenku.

Historie

wen:History_of_machine_translation

  • První patenty -- už 1930's: G. Artsrouni -- automatický slovník na děrné pásce, P. Troyanskii -- lidský editor, vyjadřující log. formy a synt. funkce, automatický překlad a editor, který přepíše log. formu cílového jazyka do textu.

  • 1946 -- A. D. Booth: automatický slovník, překlad slovo od slova, 1949 W. Weaver -- informační teorie, desambiguace na zákl. kontextu, kryptografické metody, univerzálie

  • 1948 -- R.M.Richens -- slovník s kořeny, předponami a příponami zvlášť

  • 1950 -- E. Reifler -- preediting a postediting (zjednodušení textu pro účely překladu, oprava chyb, které udělal stroj)

  • 1952 -- 1. konference na MIT, L. Dostert -- pivotní jazyk pro překlad do více jazyků

  • 1954 -- Georgetownský experiment: Rusko-anglický text o 250 slovech, 6 synt. pravidel, bez negací, slovesa ve 3. osobě, málo předložek; byl vidět úspěch, zkouší to další

  • 1955 -- Anglicko-ruský překlad v Moskvě

  • 1956 -- První mezinárodní konference

  • 1957 -- Chomsky: Syntactic Structures

  • 1960 -- Yehoshua Bar Hillel: "Fully automatic high quality machine translation is not feasible.", 1966 ALPAC (Amer. Lang. Processing Advisory committee) -- zpráva, která způsobila útlum, mimo USA výzkum pokračoval

Projekty po ALPACu:

  • SYSTRAN, Grenoble (GETA), SUSY (Saarbrücken), LOGOS (Texas), TAUM (Montreal), ETAP (Moskva)

TAUM METEO (1976)

  • Montreal, překlad meteorologických zpráv z angličtiny do francouzštiny (wen:TAUM_system)

  • dobře definovaná a správně omezená podmnožina syntaxe a sémantiky

  • vhodná implementace (Q-systémy), systém sám rozpozná, že text neumí přeložit

  • praktická implementace METEO System fungovala až do 2001 (wen:METEO_System)

SYSTRAN

  • překlad dokumentů EU, přímý (každý pár zvlášť, cca 20, uspokojivě jen AJ, FJ, NJ, wen:SYSTRAN)

  • data oddělena od programu

  • řešeno ad-hoc

EUROTRA

  • oficiální projekt EU v 80. letech, pokus nahradit Systran (72 jazykových párů, v každé zemi jedno centrum, wen:Eurotra)

  • nezvládnutá modularita (každý si měl analyzovat sám, domlouvat se na rozhraní)

  • negativní efekt

VERBMOBIL

  • Německý nástupce Eurotry, víc jak 30 univerzit; překlad mluvené řeči: domluva obchodníků na příští schůzce

  • Patent, prezentace na EXPO 2000, pak ticho

Aktuálně

{{TODO|}}

  • Stále neexistují obecně použitelné systémy, ale překlad je potřeba čím dál víc, bez určité automatizace se neobejdeme

  • Je nutné spojit síly člověka a počítače

Systémy podporující překlad

  • Využití dříve přeložených textů, princip překladové paměti (wen:%20Computer-assisted_translation)

  • IBM Translation Manager, Déja Vu, SDL TRADOS -- prodává se sám systém, paměť si překladatel zajistí sám

  • Hledání shodných úseků, oprava odlišností

  • Zejména pro překlady dokumentace k systémům různých verzí

  • Dnes se kombinují se statistickým překladem

Statistický překlad

  • Paralelní značkované korpusy, rychle se zlepšují, BLEU skóre ale není až tak směrodatné

  • Google (pivotní jazyk: angličtina?)

České systémy

{{TODO|}}

První překlad 1957 -- jedna věta na SAmočinném POčítači: "The consonants have not by far been investigated to the same extent as the vowels.“ - „Souhlásky zdaleka nebyly prozkoumány do stejné míry jako samohlásky.“ Později se tu objevily Q-Systémy, takže se začaly psát gramatiky.

APAČ (80. léta)

  • Z. Kirschner, slovník pokrýval oblast vodních pump (dokumentace), cca 1500 slov; Q-systémy

  • Transdukční slovník pro latinské výrazy: -zation -> -zace, -ic -> ický atd., seznam výjimek

Ruslan (1985-1990)

  • Překlad manuálů sálových počítačů z češtiny do ruštiny

  • Slovník: cca 8500 slov, transdukční slovník (ale příbuznosti jazyků se u něj využít nedalo), Q-systémy

  • Použití synt. transferu, očekával se minimální, ale ten stále rostl

  • Tehdy na PC 286 trval překlad 1 věty asi 4 minuty, dnes 4 vteřiny

  • Spec. kódování: háček = "3" za písmenem, čárka = "2" za písmenem, kroužek = "7" (-1- n(5)+n(5) + gs(1) + < + Z3LUT3OUC3KY2 + KU7N3 + U2PE3L + D3A2BELSKE2 + O2DY + . + > -2-).

  • Před operačními zkouškami vývoj ukončen

Česílko (od 1998)

  • Překlad příbuzných jazyků, kvůli překladům dokumentací: lidský překlad z angličtiny do češtiny a odtud automaticky do slovenštiny a polštiny. Následně se výsledek opravuje.

  • Morfologické slovníky, statistická analýza češtiny

  • Využívá (většinou) shodné syntaxe, jsou tu ale odlišné slovníky (ač jistá pravidelnost) a úplně odlišné tvarosloví

PC Translator

  • Komerční systém, založený na pravidlech, vyvíjený už hodně dlouho.

Korpusová lingvistika

{{TODO|}}

  • Textový korpus je strukturovaný obsáhlý soubor digitálně uložených textů. Většinou je označkovaný (anotovaný) na základě předchozí morfologické (někdy i syntaktické apod.) analýzy.

Brownův Korpus (1967)

  • wen:Brown_Corpus, Brown University Standard Corpus of Present-Day American English, sestavený H. Kucerou a W. N. Francisem.

  • Cca 1 milión slov z textů vydaných v roce 1961, 15 druhů textů, v různých kategoriích různý počet, např. noviny 44, humor 9, beletrie 75

  • Ukazoval dobře Zipfův zákon -- toto pravidlo říká, že jednotlivá slova se vyskytují v určitém statistickém rozdělení. Zhruba řečeno, vynásobení relativního pořadí slova v textu a jeho frekvence je konstantní.

    • Příklad: Nejčastěji se vyskytující slovo v textu je obsaženo 100krát, druhé v pořadí bude tedy obsaženo přibližně 50krát, třetí 33krát, čtvrté 25krát - a tak dále. (Zdroj)

Penn Treebank (1992)

  • První a nejznámější syntakticky anotovaný korpus, Univ. of Pennsylvania

  • Cca 1 milión slov, ze souboru článků z Wall Street Journalu z přelomu 80. a 90. let, tedy "burzovní angličtina"

Český národní korpus

  • Vyvíjen na UK, MUNI a ÚJČ AV, na UK je ÚČNK od 1994

  • dnes: 500 miliónů slov (?), veřejně přístupný SYN2006PUB obs. 300 miliónů slov., morfologicky anotováno

  • morfolog. slovník vyvíjen 1988-99, 700 000 lemmat, rozezná přes 15 mil. forem, pozicionální tagy (15 pozic)

  • tagger -- po desambiguizaci 4.29 tagů průměrně, statistika, učení se kontextových pravidel, přesnost cca 94%

Prague Dependency Treebank

  • anotovaný na morfologické, analytické a tektogramatické rovině (rozdělené: vytvoření závislostního stromu se sémantickými značkami a valencí, anotace TFA, koreference (gramatické a omezeně textové), gramatémy (deep gender, number etc.))

  • morfolog. 2 mil. slov, analyticky 1.5 mil., tektogramaticky 0.8 mil., FGP

  • existuje i arabská verze

  • vyhledávací program NetGraph, anotační (a vyhledávací) nástroj TrEd

Statistické metody

{{TODO|}}

viz také <Lingvistické_aspekty_umělé_inteligence#Statistick.C3.BD_strojov.C3.BD_p.C5.99eklad.C2.A0.28http:.2F.2Fen.wikipedia.org.2Fwiki.2FStatistical_machine_translation.29>

  • Relativní četnost: f(E)=c(E)Nf(E) = \frac{c(E)}{N}, při velkém NN se začne blížit pravděpodobnosti.

  • Bayes, Chain Rule, independence

  • Modelování jazyka: úkol: předpovědět následující slovo v textu / promluvě: p(W)=p(<wi>i=1n)p(W) = p(<w_i>_{i=1}^n), useknutí historie: trigramový model -- p(W)=p(w3w2,w1)p(w3w2)p(w3) ⁣p(W) = p(w_3|w_2,w_1) p(w_3|w_2) p(w_3)\,\!

  • Vyhlazování: příliš mnoho nulových p-stí -> nahradit malou hodnotou

  • Překlad: použití paralelních korpusů jako trénovacích dat, podle W. Weavera

  •  ⁣argmaxeP(ef)=argmaxeP(e)P(fe)\,\!\mathrm{argmax}_e P(e|f) = \mathrm{argmax}_e P(e) P(f|e), tj. ne "Jak přeložím tohle z FJ do AJ?", ale "Co za větu v AJ musím vzít, abych dostal tuhle vstupní FJ větu?"

    • Paralelní korpus je mnohem menší než jednojazyčný, jednojazyčný to zkontroluje -- ale může tam vzniknout i chyba (hezké věty, které ale nejsou překlady původních)

    • Nejdůl. část MT -- napsání dekodéru, který vybírá překlady (překl. modelu) a hodnotí je; nemusí postupovat nějakým daným způsobem, např. Google = frázově

Evaluace

  • Nejlepší: lidská, ale drahá

  • Automaticky: BLEU - referenční překlady lidí, kontroluju na shodu po kusech, log. míra

    • ParseError: KaTeX parse error: Undefined control sequence: \[ at position 22: … BP \cdot \sqrt\̲[̲4]{p_1\cdot p_2…

      , kde pi ⁣p_i\,\! jsou výskyty  ⁣i\,\!i-gramů a BP ⁣BP\,\! je penalizace za přílišnou krátkost překladu: BP=emin(1rc,0)BP = e^{\min(1 - \frac{r}{c},0)} (r ⁣r\,\! - délka referenčního překladu, c ⁣c\,\! - délka MT).

    • Existuje korelace mezi lid. překladem a BLEU, ale pro někoho ne dost vysoká; navíc preferuje statistické metody, rozdíl 1% nic neznamená

    • Hodí se jen pro porovnávání zlepšení v rámci 1 směru překladu a 1 systému

Sémantika

Je tu snaha o most mezi syntaxí a významem ("nekonečnem"), chceme nejen poznávat, ale i odvozovat. V lingvistice, psychologii apod. existuje několik sémantických teorií, jejichž přínos je neprokazatelný (ale vyvrátit se taky nedá).

Význam a pravdivost v přir. jazyce není totéž (na rozdíl od formálních jazyků), pravdivost je daná kontextem, není obsažena v jazyce, mluvíme o možných světech (existuje svět, kde je věta pravdivá).

Zákl. sémantický princip: Fregeho princip kompozicionality -- význam složeného výrazu (např. věty) je určen významy podvýrazů (např. slov) a způsobem jejich kombinací.

Lexikální sémantika

Jde tu o významy slov, můžeme je popisovat nějak formálně, nebo i přirozeným jazykem (např. ve výkladových slovnících), kde je ale nutné dávat pozor na definici kruhem, někdy se používá jen omezené množství výrazu onoho jazyka. Význam závisí na kontextu, což lze ukázat na příkladových větách (Střílení poslanců ohrožuje naši demokracii.)

Pěkný způsob popisu sémantiky slov je pomocí sémantických tříd (rysů) -- máme ontologii, tj. množinu tříd objektů, která představuje jejich klasifikaci. Každý objekt (slovo) buď do nějaké třídy patří (příznak "+"), nepatří (příznak "-"), nebo na ní nezávisí (příznak "0"). Třídy jsou např. fyzický objekt, vztah, vlastnost, činnost, živá bytost apod. Třídy je možné zjemňovat, vytvářet v nich hierarchii, ale příliš jemné dělení je pak už spíš na závadu, slova začnou být nezařaditelná.

Velmi výhodný způsob popisu jsou sémantické sítě, které umožňují určit různé vztahy a směry vztahů mezi pojmy, tj. nejen hierarchii sémantických tříd, ale i vztahy napříč nimi. Nejznámnější síť je WordNet, která se pokouší o klasifikaci slov v angličtině, shormažďuje slova do skupin synonym (patřících k jedomu konceptu) a dělí slova na víc možných významů, řazených podle frekvence. Idea WordNetu se rozšířila po světě a existuje už pro spoustu jazyků vč. češtiny (od 1998, v rámci projektu EuroWordNet, který původní koncept vylepšuje ještě o vrcholové ontologie, jazykově nezávislé koncepty, tedy dělení sítí napříč jazyky; nebo jazykově nezávislý index). WordNet je používán např. v míře spolehlivosti překladů Meteor MT na hledání synonymity; hodí se i pro získávání znalostí z internetu.

Sémantika věty

Jeden z možných principů aplikovatelných na tuto část je právě Fregeho princip. Často se používá predikátová logika 1. řádu, ta je však pro jakoukoliv situaci složitější než objednávání jízdenky příliš slabá. Jiná možnost je Transparentní Intenzionální Logika -- ta je založena na lambda kalkulu, pracuje s možnými světy, nemá vlastní log. spojky a tím pádem nepreferuje žádná slova.

Příklad:

  • ΛwΛt(Mwt(A(ΛwΛt(HnwtFwtZwt)))) ⁣\Lambda w \Lambda t (M_{wt}(A(\Lambda w \Lambda t(Hn_{wt} F_{wt} Z_{wt}))))\,\! = (V daném světě a čase = ΛwΛt\Lambda w \Lambda t) Studentka Alena (A) si myslí, že (M) ministr financí (F) je hezčí než (Hn) ministr zahraničí (Z).

Pro sémantiku lze použít i tektogramatickou rovinu, je to určitě víc než syntaktické vztahy, ale poměrně hrubé (např. jen 5 základních rolí).

Protože překlad je přenos myšlenky, mělo by to být důležité i pro něj, ale v praxi tohle zatím nefunguje. Pro získávání informací z textu je ovšem situace jiná.

Smysl textu

To je o řád těžší než izolované věty. Máme spoustu nevyjádřených odkazů -- vynechaný podmět, zájmena: reference. Ty jsou trojího typu:

  • anafora je odkaz zpět (nejčastější a nejjednodušší)

  • katafora je odkaz dopředu v textu (to dělá víc problémů)

  • exofora je odkaz na věci mimo text, to vůbec nejde řešit

I řešení anafor je hodně složité, rozhoduje kontext, <Lingvistické_aspekty_umělé_inteligence#Textov.C4.9B_lingvistick.C3.BD_p.C5.99.C3.ADstup_--_aktivovanost_prvk.C5.AF_v_textu>, aktuální členění věty.

Elipsa je vynechání některé části věty, protože je zřejmá z kontextu. Co chybí, se dovíme z valenčního rámce slovesa. Vyskytuje se nejčastěji v dialozích.