Syntax highlighting of Archiv/Statistické metody zpracování přirozených jazyků I

{{predmet|Statistické metody zpracování přirozených jazyků|Jan Hajič|PFL067}}

''Statistical NLP (Natural Language Processing)''

== Písemka ==

10.1.2006 místo přednášky

Rozsah: začátek až "třídy slov" (poslední slajd je 192)<br/>
(písemka asi na hodinu)

Témata na písemkové otázky:
* pravděpodobnost
* entropie, vyhlazování
* co je to ... ? (jazykový model, ...
* (možná) teorie - značkování, morfologie, ...

Na webu předmětu je [http://ufal.mff.cuni.cz/~hajic/courses/pfl043/0304/midterm.html ukázka písemky] (v zadání prvního příkladu je chyba - aby něco vycházelo například pomáhá, když se zamění hodnota p(a,a) a pL(a) (vymění se 1/2 a 1/4)).

== Věci k zapamatování ==

=== Probability ===
* Joint and conditional probability: p(A,B) = p(A intersect B); p(A|B) = p(A,B)/p(B)
* Bayes Rule: p(A|B) = p(B|A)*p(A)/p(B)
* Chain Rule: p(A1, A2, ..., An) = p(A1|A2, ..., An) * p(A2|A3, ..., An) * ... * p(An)
* The Golden Rule (of stat. NLP): best A : argmax_A p(B|A)*p(A)

=== Information Theory ===
* Entropy: H(X) = - Suma_x p(x)*log_2(p(x))
* Perplexity: G(p) = 2^H(p)
* Conditional entropy: H(Y|X) = - Suma_x,y p(x,y)*log2(p(y|x))
** Chain Rule: H(X,Y) = H(Y|X) + H(X) = H(X|Y) + H(Y)
* Kullback-Leibler distance: D(p||q) = Suma p(x)*log2(p(x)/q(x))
* Mutual Information: I(X,Y) = D(p(x,y)||p(x)*p(y))
** I(X,Y) = Suma_x,y p(x,y)*log2(p(x,y)/(p(x)*p(y))
** I(X,Y) = H(X) - H(X|Y)
** D(p||q) >= 0
* Cross Entropy: H_p'(p) = - Suma_x p'(x)*log2(p(x))
** conditional: H_p'(p) = - Suma_x,y p'(x,y)*log2(p(y|x))
** conditional over data: = -1/|T'| * Suma_{i over data} log2(y_i|x_i)

== Odkazy ==

* [http://ufal.mff.cuni.cz/~hajic/courses/pfl043/0304/syllabus.html web předmětu] - termíny odevzdání úkolů jsou sice težce neaktuální, ale jinak stránka obsahuje spoustu užitečných informací