NPFL012 Úvod do počítačové lingvistiky

Úvodní přednáška do počítačové lingvistiky. Výklad doktora Kuboně je srozumitelný a v rozumné míře zábavný, poměr teorie a praktických ukázek je vyrovnaný.

Poznámky

Skripta

  • Eva Hajičová, Jarmila Panevová, Petr Sgall: Úvod do teoretické a počítačové lingvistiky, I. svazek - Teoretická lingvistika (Karolinum 2002, ISBN 80-246-0470-1) - kniha je dostupná ve fakultní knihovně na Malé Straně

Zkouška

Na zkoušku se lze během dvou dnů v pohodě naučit (tomu, kdo nechodil na přednášky, to může trvat o něco déle). Zkouška je písemná, jedna velká otázka a 7 menších. Na jedničku je třeba umět všechna klíčová slova k dané otázce.

Otázky

  • Hlavní otázky:

    • Korpusy - základní fakta o tvorbě, reprezentativnosti,... Druhy značkování + ke každému český a zahraniční příklad s dalším popisem, paralelní korpusy.

    • MOZAIKA - velká otázka

    • ASIMUT

    • Chomskeho teorie

  1. korpusy

  2. tři základní úlohy se skrytými markovskými modely

  3. vlastnosti izolačních jazyků + příklad přirozeného izolačního jazyka

  4. teorie valence, valenční rámec

  5. kategoriální gramatiky

  6. rozdíl mezi významem a pravdivostí

  7. ...

  8. proč se u statistických metod dělá vyhlazování

  9. preklepy, strategie vuci uzivateli, nabizeni reseni

  10. two level morphology

  11. strukturni index

  12. metoda zasumeneho kanalu

  13. penn treebank

  14. druhy anafory

  15. eurowordnet

  16. rozdil mezi hloubkovou a povrchovou syntaxi, jejich vztah

  • Gramatická správnost, dvě hlavní metody, co se dá kontrolovat obecně, co v češtině a jaké jsou v češtině metody kontroly gramatiky (hlavní otázka, měla být aspoň jedna popsaná stránka)

  • Co je to ALPAC

  • Kategoriální gramatiky

  • Presupozice

  • Rozdíly mezi morfologickou analýzou a značkováním (tagging)

  • Q-systémy - co to je, jak fungují a využití

  • Tři hlavní morfologické přístupy

  • Cosi s anaforou (nikoliv její typy)

  1. MOZAIKA - velká otázka

  2. strukturální index

  3. BLEU

  4. METEO a jeho historický význam (= ve své dobře jediný komerčně využívaný systém)

  5. Vauquoisův trojúhelník

  6. ontologie

  7. WordNet

  8. Český národní korpus

  1. ASIMUT (velka)

  2. druhy morfemu

  3. prevest zavislostni strom vety "Maly chlapec psal dopis na stole" na slozkovy. Je prevod jednoznacny?

  4. deleni jazyku z hledika morfologie

  5. rozdil mezi interlinguou a pivotnim jazykem

  6. druhy anafory

  7. strucne popsat princip Tree Adjoining Grammars 8 ) Prazsky zavislostni korpus - velikost, jake znacky

  8. ASIMUT (velka otazka)

  9. Two level morphology

  10. Jazyky, jejich rozdeleni

  11. Prevest zavislostni strom (ze slajdu z prednasky) na slozkovy. Je prevod jednoznacny? (neni)

  12. LFG

  13. Bleu

  14. Alepson 4 vlastnosti, ktere musi splnovat moderni korpusy

  15. TIL

  1. Co je to morfem?

  2. MOSAIC

  3. Na co slouzi strukturni index u Chomskeho gramatiky? (tady bylo dulezite zminit, ze se jedna o REZ STROMEM)

  4. Rozdil mezi hloubkovou a povrchovou rovinou. (1. je o vyznamu, 2. je o zapisu vety)

  5. Vauquoisuv trojuhelnik (stacilo nakreslit)

  6. Ontologie - co to je a jak se pouziva

  7. EuroWordNet, WordNet

  8. Cesky narodni korpus (slozeni, velikost, typy znacek) - tady jsem se rozepsal o Prazskem zavisl. korpusu, ale to mi uznal, ponevadz CNC stacilo jen strucne, a to uz jsem mel:)

ASIMUT (hlavní otázka) co je to strukt. index u transformační gramatiky co je to ontologie co je to interlingua a k čemu se používá rozdíl extenze / intenze v sémantice hloubková a povrchní syntaxe, vztahy mezi nimi český národní korpus Česílko

1, Podrobně popište automatický překlad metodou zašuměného kanálu 2, Lemmatizace - co to je a kde se používá 3, Teorie minimalismu - autor a na které teori navazuje 4, Na čem je založena teorie funkčního generativního popisu 5, Překladová paměť 6, Převeďte složkový strom na závislostní 7, Rozdíly mezi modelově teoretickou a kompozicionální sémantikou 8, 4 typy anaforických vztahů v textu + příklady

  1. korpusy. Charakterizovat korpusy, ktere jsme probirali (zdroje textu, co je v nich znackovano atd.). K cemu jsou korpusy dobre v teoretickem i aplikovanem vyzkumu.

  2. druhy morfemu

  3. princip ASIMUTu

  4. valence

  5. co znamena zkratka TAG, strucne vysvetlit princip

  6. rozdil mezi interliguou a pivotnim jazykem

  7. Fregova koncepce (?)

  8. "zasumeny kanal"

Ja mela velkou otazku ok a ze zbyvajicich ve dvou chybu. Aby to bylo na jednicku, dal mi jeste doplnujici otazku - vysvetlit, co je: HPSG LFG FGD

  1. podrobne popisat ASIMUT

  2. co je to EuroWordNet

  3. co je to alomorf

  4. co je transfer v automatickom preklade

  5. co je strukturni index a v akej teorii sa vyuziva

  6. ? - nepamatam si

  7. co su to n-gramy

  8. co je to HPSG

  1. Chomskeho teorie

  2. alomorf

  3. Bickel Schroderova metoda

  4. sestava rysu

  5. Penn TreeBank

  6. transfer

  7. zasumeny kanal

  8. Ngram

  1. Podrobne popisat ASIMUT

  2. co je to morfem a ako ho klasifikujeme

  3. strucne popisat Chomskeho gramaticku teoriu

  4. vytvorit zavislostny a zlozkovy strom pre vetu "Ve včerejším závodu startovali výborní skokani."

  5. co je prekladova pamet

  6. co je vyhlazovani

  7. popisat Brownov korpus

  8. co je ontologie

  1. Podrobne popiste statisticke metody v automatickom preklade

  2. Co je to WordNet

  3. Na com je zalozeny jazykovy modul systemu ASIMUT

  4. Pouziva sa u systemu MOSAIC syntakticka analyza? Preco? (preco ano, preco nie)

  5. Na co sluzi struktuni index u Chomskeho gramatiky?

  6. Co viete o Prazskom zavislostnom korpuse

  7. Co su to unifikacne gramatiky, ich vyhody, nevyhody.

  8. Popiste system Cesilko

  1. Popiste podrobne system ASIMUT

  2. Co je to morfem a jak se deli morfemy

  3. Strucne popiste prvni Chomskeho navrh gramatiky popsany v knize Syntactic structures

  4. Nakreslete slozkovy a zavistlostni strom pro vetu "Ve vcerejsim zavodu startovali vyborni skokani."

  5. Napiste, co vite o Brownove korpusu

  6. Co je to vyhlazovani

  7. Co je to ontologie

  8. Co je to prekladova pamet

Sada otázek ze starších zkoušek

  • Co je wordnet?

  • Popište systém ASIMUT.

  • Podrobně popiště systém MOSAIC.

  • Používá MOSAIC syntaktickou analýzu? Proč?

  • Co je a na co slouží strukturní index u Chomského gramatiky?

  • Pražský závislostní korpus (PDT)

  • Unifikační gramatiky - výhody/nevýhody

  • Systém Česílko

  • Kontrola překlepů

  • Co je morfém a jak ho klasifikujeme?

  • Nakreslete složkový a závislostní strom pro větu "Ve včerejším závodu startovali výborní skokani."

  • Převeďte složkový strom na závislostní

  • Co je překladová paměť?

  • Co je vyhlazování?

  • Brownův korpus

  • Co je ontologie a jak se používá?

  • Chomskeho teorie

  • Co je alomorf?

  • Bickel-Schroderova metoda

  • PennTreebank

  • Sestavy rysu a jejich použití.

  • Co je transfér v automatickém překladu – přenos zanalyzované věty z jednoho jazyka do druhého (slovosled, morfologie)

  • Jaký je rozdíl mezi interlinguou a pivotním jazykem?

  • Co je TAG (velmi stručně popište)

  • Popište model zašuměného kanálu.

  • Funkční generativní popis stručně

  • Statistické metody prekladu

  • co je LFG?

  • co je Two-Level morphology?

  • BLEU

  • rozdil intenze/extenze

  • transparentní intenzionální logika

  • co je ATN? (Augmented transition network)

  • Stručně popište Český národní korpus(složení, velikost, typy značek).

  • Popište Vauquoisův trojúhelník. (trojúhelník s interlinguou na vrcholu)

  • Stručně popište systém METEO.

  • Stručně popište rozdíl mezi hloubkovou a povrchovou rovinou analýzy syntaxe.

  • rozdil mezi morfologickou analyzou a taggingem

  • 3 hlavní přístupy k popisu morfologie

  • Q systemy (k comu sluzia, kde su aplikované, ako funguju)

  • dělení anafor a jak se řeší algoritmicky

  • Co je to lemmatizace a kde se používá?

  • ALPAC

  • metody kontroly gramatickej spravnosti viet (hlavne javy, specificke javy pre cestinu, implementacia)

  • Co je to teorie minimalismu, kdo je autorem a co jí předcházelo