Dobývání znalostí
From ωικι.matfyz.cz
| Dobývání znalostí | ||||
|
| Table of contents |
[edit]
Obecné informace k předmětu
- Stránky předmětu (http://ksvi.mff.cuni.cz/~mraz/datamining/index.html)
- Shrnutí na zkoušku
- Wikipedia:Datamining
- Statistics Tutorials (http://home.okstate.edu/homepages.nsf/toc/onlinetutorialsstatistics)
- How to choose a statistical test (http://www.graphpad.com/www/book/choose.htm)
- Statistical Data Mining Tutorials (http://www.autonlab.org/tutorials/)
[edit]
Termíny písemek
- 8. 4. 2008
- 13. 5. 2008
[edit]
Okruhy otázek na první písemku 8. 4. 2008
- Transformace do intervalu <0,1>, směrodatná odchylka, chi kvadrát test a Fisherův test
- Rozhodovací stromy - popsat některý algoritmus, rozhodnout který algoritmus je vhodný
- MBA - jednoduchá tabulka - pravidla, které je nejlepší a proč, algoritmus generování pravidel
[edit]
Příklady ze cvičení
[edit]
Algoritmus TDIDT
Povedzme že budeme rozdeľovať podľa atribútu vitamín...
1 level, vetva pre...
[edit]
vitamín
- B (2+, 3-)
- C (4+, 0-)
(z "definície"...)
- D (3+, 2-)
Entropia:
(vážený priemer)
[edit]
rodina
- veľká (2+, 2-)
- stredná (4+, 2-)
- malá (3+, 1-)
Entropia: H(Rod) = 0.9111
[edit]
cvičil
Entropia: H(Cvicil) = 0.7885
[edit]
Bypass
Entropia: H(Bypass) = 0.8922
... budeme teda pokračovať podľa atribútu Vitamín (najmenšia entropia).
Množinu rozdelíme na 3 skupiny (B,C,D). C-čko všetci prežili, máme dve skupiny pre Bcomplex a D - spočítame znovu strednú entropiu (aby sme vedeli, podľa čoho ďalej štiepiť).
[edit]
B
vyberieme riadky s Bcomplex a robíme to isté :)
H(Rod) = 0.4 H(Cvicil) = 0 H(Bypass) = 0.9183
[edit]
C
...je jasné, tam nik nezomrel... :)
[edit]
D
H(Rod) = 0.9183 H(Cvicil) = 0.9183 H(Bypass) = 0
...ďalej sa teda bude štiepiť v Bčku podľa "Cvicil" a v Dčku podľa "Bypass"
[edit]
Perceptron
- uloha: naucit perceptron rozoznavat body v 2D na 2 skupiny...
- popis perceptronu v matlabe:
- vyhodnoti sa potom...
=> percrecall = w1 * x1 + w2 * x2 + prah * 1
- ...rozsireny vstupny vektor
- vystup = hardlim1(p * x1') (hardlim1(<=0)=0; hardlim1(>0)=1)
- vyhodnoti sa potom...
- inicializacia :
- vstup:
- vystup (chceme):
- uciaca konstanta a = 0.2
- ucenie prebieha takto:
- vezme sa vzor, ak sedi, nic nerobime
- ak najdeme chybu - pricitame/odcitame (pozadovany-skutocny vystup - napr. v priklade y = hardlim1(p * AA);dif = c(3) − y(3)) dany vektor k vaham... (c(3) − y(3)) * AA(:,3)
- dostavam novy perceptron p1 = p + a * ((c(3) − y(3)) * AA(:,3))'
-
- to je zla matica (ma byt samozrejme [1 1 0 0])- znovu zopakujeme postup...
- teraz budeme skusat prvy vektor (ktory je nespravny)
- ... N iteracii (N=?)
- to je zla matica (ma byt samozrejme [1 1 0 0])- znovu zopakujeme postup...
