{{Stub}} {{TOC float}}
{{Sources|Velkou část otázky pokrývá předmět Dokumentografické informační systémy Michala Kopeckého -- User:Rajjo 17:37, 29 Aug 2010 (CEST)
slidy k předmětu Dokumentografické informační systémy
wen:Information_retrieval
}}
Informační systémy
Faktografické vs. dokumentografické
Zpřístupnění vs. dodání dokumentu
Indexace nutná -- termy
řízená, neřízená
tezaury
Kritérium predikce + maxima
Precision, recall
Vyhledávání v textu
Triviální algoritmus
Knuth-Morris-Pratt
Aho-Corrasicková
Boolské informační systémy
Dokument reprezentován množinou termů, které ho vystihují
Dotazy: AND, OR, NOT, wildcards, víceslovné, proximitní omezení, tezaurus, lemmatizace
Invertovaný indexový soubor (org. po termech)
Uspořádání výsledků (DNF, počet splněných konjunkcí)
Zpětná vazba
Vektorové informační systémy
Každý z dokument reprezentování -složkovým vektorem vah důležitostí termů (
ParseError: KaTeX parse error: Undefined control sequence: \[ at position 5: \in \̲[̲0,1]
)Indexový soubor je matice vah
Dotaz je taky vektor, vyhodnocení a řazení pomocí:
základní
vylepšení na délku vektorů (počet nenulových ) -- dělení , nebo
jiné -- normalizace na jednotkovou délku vektorů
Nerozlišuje se disjunkce a konjunkce
Negace = přidání záporných vah do dotazů
Indexace podle term frequency -- (podíl počtu výskytů daného termu v dokumentu z celk. počtu termů v něm)
Normalizovaná (do
ParseError: KaTeX parse error: Undefined control sequence: \[ at position 12: \{0\} \cup \̲[̲1/2,1]
).Inverzní , pokud se term vyskytuje v dokumentech z .
Výpočet vah ( je normalizace)
Matice podobnosti termů -- závislost a zastupitelnost termů
Induktivní systémy
Dvouvrstvá neuronová síť se zpětnou aplikací vah (1. vrstva - termy, 2. - dokumenty)
Laterální inhibice -- zabránění nárůstu vah
Signaturové systémy
Uložení na pomalých médiích -- předstupeň k lepší metodě
Každý dokument i search term má signaturu, která funguje jako maska (pokud je bitový and signatury dokumentu a termu nenulový, je dokument možná relevantní a použije se k detailnímu hledání)
Přiřazení signatury -- každý term: jedna jednička na nějakém místě / hashovací funkce
Zabránění příliš mnoha jedničkám v signaturách dokumentů -- rozdělení na bloky (pevné délky nebo pevného počtu jedniček v signatuře)
Wildcardy obecně nejsou možné, jen s monotónními signaturami
Rozšířená boolská logika
Reprezentace stejná jako vektorový model
Dotazy stejné jako s boolskou logikou, ale s váhami (pokud nejsou uvedeny, bere se 1)
OR -- vzdálenost od nulového dokumentu jako
ParseError: KaTeX parse error: Undefined control sequence: \[ at position 6: \sqrt\̲[̲p]{\frac{q_a^p …
(kde jsou váhy dotazu)AND -- vzdál. od jednotkového dokumentu jako <maht>1 - \sqrt[p]{\frac{q_a^p(1-w_{i,a})^p + q_b^p(1-w_{i,b})^p}{q_a + q_b}}$
Pro je to vlastně vektorový model, pro se blíží k boolskému
Rozlišovací hodnoty termů v indexu
Informace o tom, jak dobře termy rozlišují dokumenty -- co se stane, když nějaký z nich vyhodíme
Rozlišovací hodnota , kde je průměrná podobnost dokumentů s centroidem ("průměrným dokumentem" ) a je totéž, odstraníme-li -tý dokument.
Je možné použít jako , má lepší vlastnosti než ten logaritmus (viz výše)
Přibližné hledání
Detekce chyb, nalezení blízkých termů ve slovníku:
Počet společných digramů
wen:Hamming%20distance (počet operací replace při doplnění slova znakem na stejnou délku)
wen:Levenshtein%20distance (počet operací replace, insert nebo delete)
Lze použít konečné automaty
{{Statnice I3}}