Archiv/Státnice I3: Návrh a vyhodnocování lingvistických experimentů

Úvod

protože NLP používá ve velké míře stochastické metody, zaměříme se hlavně na experimenty testující účinnost těchto metod
předtím, než je možné použít nějakou stochastickou metodu v praxi (a otesovat její účinnost), je nutné ji natrénovat na trénovacích datech
- trénování závisí na dané metodě, ale většinou spočívá ve spočítání pravděpodobností použitých v metodě - často se odhadují pomocí relativních frekvencí získaných z trénovacích dat
následně (pokud to daná metoda vyžaduje) je potřeba metodu přízpůsobit povaze dat (tzn. upravit její parametry, pokud existují), abychom maximalizovali její učinnost
- parametry optimalizujeme na development datech
následně je možné metodu otestovat pomocí vhodných metrik na testovacích datech

potřebujeme anotovaná data, u kterých ručně označíme správný výsledek experimentu - např. ručně přiřazené tagy slov pro tagging
data je nutno rozdělit na 3 části
- training data - největší, slouží k odhadnutí pravděpodobností; z velké části určují výsledek stochastické metody
- development data - malá sada dat, která slouží k optimalizaci parametrů dané metody/modelu
- test data
  - slouží pro ohodnocení kvality dané metody za použití vyhodnocovací metriky
  - nesmí být obsaženy v trénovacích a development datech, aby mohla být metoda objektivně ohodnocena
pro nestochastické metody stačí pouze testovací data pro vyhodnocení

Evaluation

test against evaluation test data -- comparing the output of my parser to manually corrected data, done by someone else and in advance, independent of my algorithms
rules:

should be automatic (if possible) -- avoid subjective evaluation (but in e.g. SMT this is inevitable)
never tune the system using test data (use a small part of training data for this)
use standard metrics (if possible)

pro každou vstupní jednotku vygeneruju jednu výstupní jednotku - např. tagging: každému slovu přiřadím tag
error rate
accuracy

délka vstupu a výstupu se může lišit - např. strojový překlad: výstupní věta může mít jinou délku než vstupní věta
precision
recall
f-measure

BLEU
wen:NIST%20%28metric%29
wen:METEOR
- upravená f-measure s důrazem na recall (precision:recall - 1:9)
- párování slov na 3 úrovních: 1) slovní forma, 2) kořen slova, 3) WordNet synonymum
PER (Position independent Error Rate), wen:Word%20error%20rate (Word Error Rate), TER (Translation Edit Rate), CDER