{{Stub}} {{Předmět|Datové sklady a analytické metody pro podporu rozhodování|Vladimír Kyjonka|DBI027}}
Materiály
na SISu u předmětu NDBI027 - je potřeba být přihlášen, jinak je v nabídce pouze úvodní ppt
Business intelligence: jak využít bohatství ve vašich datech
Otázky na skúšku
Aktuální
http://forum.matfyz.info/viewtopic.php?f=472&t=9863
Stará verze (archiv)
Co byste se chtěli ještě dozvědět? :: Modelovanie DWH v konkrétnych modelovacích nástrojoch ako Power Designer.
Co je deduplikace a jak se provádí?
Stanovení nejlepšího reprezentanta
Deduplikovaná databáze obsahují (právě) jeden záznam pro každého konkrétního jedince – representant
Záleží na metodě jeho tvorby
např. nejlepší z nejlepších (BoB - z každého zdroje vyber to nejlepší a zkombinuj to)
nebo technická master role z unifikace
nebo některý ze závazného číselníku
nebo nejčerstvější
nebo z prioritního systému
nebo kombinace
Co je FASMI a co to znamená? :: Charakteristika OLAP: * Fast - rýchla odozva * Analytical - podpora analytického spracovania * Shared - zdieĺanie používateľmi, nie každý vidí všetko * Multidimensional - multidimenzionálny model * Informational - zameraný na informácie :: Fast Analysis of Shared Multidimensional Information (FASMI) is an alternative term for OLAP
Co je householding, jaké jsou typy HH a k čemu je to dobré
Seskupení klientů, kteří mají něco společného
Při householdingu se hledají vztahy mezi klienty (skutečnými lidmi)
Typy
Riskově orientovaný HH
„Liberální“ přístup (volnější pravidla, potenciální vazby …)
Každý klient tvoří jádro 1 HH
Klient může být ve více HH
Marketingově orientovaný HH
„Konservativní“ přístup (co nejpřesnější identifikace HH, opatrnost)
Každý klient je právě v 1 HH
K čemu dobré
Obchod a marketing
Nabídka produktů pro celý household
Profitabilita klientů
Hodnota, potenciál a riziko na úrovni householdu
Ošetřování rizik, fraud management …
Co je multidimenzionální kostka a co obsahuje?
Věcně orientovaná representace dat :: Image:Cube.JPG
Obsahuje
Metriky
Dimenze
Co je ODS a k čemu slouží?
Operativní integrované úložiště podnikových dat, často orientace na subjekt (např. zákaznická ODS)
Obsahuje pouze aktuální data
#*Slouží pro:
ukládání master dat (referenčních, klíčových etc.)
operativní analysy a reporting
Co je OLAP, k čemu je to dobré a čím se vyznačuje?
On-line Analytical Processing
K čemu dobré:
Uživatel má možnost formulovat hypotézy
Systém poskytuje nástroje pro jejich ověření
Čím se vyznačuje
Základem je zobrazování multidimenzionální matice (kostky)
Technické riešenia OLAP
ROLAP, MOLAP, HOLAP, DOLAP (viď otázka č. 22)
Co je overfitting (přeučení)? Čím je způsobeno a jak mu zabránit?
Přeučení modelu u data mining-u
Naučený model je příliš svázán s trénovacími daty
Přesnost modelu je vysoká na trénovacích datech, ale nízká na nových datech
Jak mu zabránit
Rozdělení trénovacích dat (učení – test)
Rozhodovací stromy – prořezávání, menší hloubka stromu
Některé algoritmy ukončí včas generování stromu (prepruning)
Většina nejdříve vygeneruje strom a pak ho ořeže (postpruning)
Prořezávání zvyšuje chybu na učící množině, ale doufáme, že na reálných datech chybu zmenší
Co je parsing, k čemu je dobý a jak se provádí
parsing je rozpoznávanie obsahu datových položiek
používa sa pri automatickom čistení dát pre rozoznanie dát, ktoré treba opraviť
spôsob realizácie:
definícia vzoru hľadaných dát: <pattern definition='{FIRST_NAME} {LAST_NAME} MLADSI' name='F L mladsi' />
vyhľadanie tokenov
Co je ROLAP, k čemu je to dobré a čím se vyznačuje?
ROLAP : OLAP s využitím relační databáze: Data jsou uložena v RDBMS, zobrazována jsou multidimensionálně
Výhody: flexibilita, skalabilita
Nevýhody: nároky na výkon DB, nároky na správu
Co je to data-mining (DM)?
Je to proces extrahovania skrytých vzorov z dát. So zvyšujúcim sa obsahom dát (zdvojnásobenie raz za 3 roky) slúži ako nástroj, ktorý tieto data transformuje na informácie
Co je to System of Record?
Slúži ako systém pre úložište a správu Master dát
Súčasti:
Databáza (buď modelovanie nového modelu, alebo použitie existujúceho riešenia)
Aplikácia pre správu Master dát
Interfaces, API, ...
Co je unifikace zákaznických dat, k čemu je to dobré, jaké hlavní problémy jsou s ní spojeny?
Určení záznamů, představující jeden konkrétní subjekt (osoba, adresa, produkt, vozidlo …)
Dobré: z dát dostaneme konkrétnu, zmysluplnú informáciu a pridelíme jej nový jednoznačný identifikátor ako unifikovanému subjektu
Problémy: napr. s parsovaním - v stĺpci pre meno nájdeme "Pán" alebo "Meno Priezvisko", alebo môžu byť problémy so správnosťou unifikácie - záznam sa neunifikuje, aj keď unifikovaný mal byť
Co jsou datamarty, k čemu slouží a proč vznikají?
Sú to systémy, ktoré obsahujú požadovanú podmnožinu dát určitého DWH, ale sú rýchlejšie, flexibilnejšie (čo do zmeny údajov). Môžu byť nezávislé (data DWH sa duplikujú na Data marte), alebo závislé (neduplikjú data, používajú data z DWH)
Slúžia pre subjekty, ktoré nemajú záujem o celý DWH a požadujú rýchlejší flexibilnejší systém, do ktorého môže naraz pristupovať viac užívateľov
Co jsou operace drill-down a drill-up (uveďte příklad)
Navigace v hierarchii dimensí - směrem k většímu detailu (drill-down) a k menšímu detailu (drill-up)
Příklad: Zobrazování hodnot prodejů za rok s rozpadem na měsice, dny (drill-down)
Co jsou to kreativní indexy? Stručně popište
Sorrka, nič iné som nenašiel.. Je to z prezentácie 04, slajd 35.. Keď tak niečo doplňte ;)
Příklady kreativních indexů:
největší zakázky
nejméně aktivní účty
nejpozdější dodávky
Co znamená v DW partitioning a k čemu je to dobré? Stručně popište
Rozdělení dat na oddělené fysické jednotky
K čemu je to dobré
s daty se může zacházet odděleně -> vyšší výkon
Data ve velkém bloku se nedají:
snadno restruktualizovat
libovolně indexovať a v případě potřeby sekvenčně prohledávat
jednoduše reorganizácia
snadno obnovovat a aktualizivat
jednoduše monitorovat
Co znamenají zkratky TQM, EDQM?
Různé metodiky pro řízení DQ
Total Quality Management (TQM) is a business management strategy aimed at embedding awareness of quality in all organizational processes.
Enterprise Data Quality Management (EDQM) - Data Quality Insurance for the Enterprise
Řešíte úlohu čištění adres. Na vstupu máte sloupce: psč, obec, ulice, číslo orientační a číslo popisné. Navrhněte metriky datové kvality (alespoň 10)
Metriky kvality atributu PSČ
Počet záznamů se správně vyplněným PSČ
Počet záznamů s nevyplněným PSČ
Počet záznamů s nesprávným formátem PSČ
Počet záznamů s PSČ, které nelze dohledat v externím zdroji
Počet záznamů, kde PSČ v externím zdroji neodpovídá názvu obce
Počet záznamů, pro něž lze dohledat PSČ podle názvu obce
Počet případů, kdy evidentně různé obce mají stejné PSČ
Metriky kvality atributu Obec
Počet záznamů s nevyplněným Obec
Počet záznamů s Obec, které nelze dohledat v externím zdroji
Metriky kvality atributu Číslo popisné
Počet záznamů s nevyplněným Číslo popisné
Jak je to s mazáním dat z DW?
Single Snapshot - celá tabulka je smazána a naplněna znovu
Sequential Snapshot - každá aktualizace přidá nový snashot k předešlým datům
Incremental - každá aktualizace přidá pouze nové záznamy
Incremental with Update - každá aktualizace přidá nové záznamy a aktualizuje existující záznamy
Jaké jsou rysy, v nichž se typicky liší DW a OLTP
Aplikační vs. Subjektová orientace
Detail vs. Agregace
Časové diskrétní hodnoty vs. Snímky za období
Uživatelé: Řadoví úředníci vs. Manageři
Přístup: Update vs. Read
Opakující se vs. Heuristické zpracování
Požadavky: OLTP - předem známy, DW - většina předem neznáma
Standardní životní cyklus vs. Specifický životní cyklus DW
Přístup k informacím v jednom okamžiku: Jednotka infromace vs. Sada informací
Transakční orientace vs. Orientacena analysu
Požadavky na výkon: pro OLTP žovotně důležitá, pro DW ne tolik
Přístupová práva pro update: Pro OLTP rozhodující, pro DW nezajímavé
High availability: pro OLTP důležitá, pro DW ne
Správa a používání: OLTP jako celek, DW - wubsety
Redundance: OLTP - nežádoucí, DW - typická
Struktura: OLTP - statická, DW - flexibilní
Zpracovávané objemy dat: malé vs. velké
Operace: OLTP - rutinní úlohy, DW - managerské potřeby
Pravděpodobnost přístupu ke konkrétním datům: OLTP - vysoká, DW - nízká až střední
Jaké jsou technické typy řešení OLAP - stručně charakterisujte, schematicky znázorněte, uveďte výhody a nevýhody
ROLAP : OLAP s využitím relační databáze: Data jsou uložena v RDBMS, zobrazována jsou multidimensionálně
Výhody: flexibilita, skalabilita
Nevýhody: nároky na výkon DB, nároky na správu
MOLAP: využití MDB a MD zobrazování
Výhody: Rychlost (výkon)
Nevýhody: Malá flexibilita, nároky na prostor, omezení velikosti dat
HOLAP: Hybridní OLAP - kombinace MOLAP a ROLAP (agregace v MDB, detailní data v RDB)
Výhody: přístup k velkým datům, současně rychlé agregace
Nevýhody: Údržba dat na dvou místech a z toho vyplývající problémy
DOLAP: Dynamický OLAP: Viruální MD matice postupně budována v paměti, zdrojová data v RDBMS
Výhody: Neomezená flexibilita
Nevýhody: Nároky (omezení) na RAM, závisí na výkonosti DB, kostka se vždy znova buduje
DOLAP: Desktop OLAP - část MD kostky downloadována "na desktop"
Výhody: Autonomnost analýzy
Nevýhody:
<!------------------------------>
Jaké jsou výhody a nevýhody MOLAP?
Výhody: Rychlost (výkon)
Nevýhody: Malá flexibilita, nároky na prostor, omezení velikosti dat
<!------------------------------>
Jaké jsou základní fáze typického DM projektu?
CRISP-DM (11_DW_Datamining_III/48) :: * Co řešit (Business understanding) * Kde vzít data (Data understanding) * Jak data připravit (Data preparation) * Jak data analyzovat (Data modelling) * Co jsme zjistili (Evaluation) * Jak výsledky využít (Deployment)
<!------------------------------>
Popište jednu vybranou fázi v detailu, vyjmenujte její hlavní rizika.
<!------------------------------>
Jaké jsou základní logické vrstvy datového skladu - stručně popište. * L0 - staging area - nárazník mezi zdrojovými systémy a vlastním DW - autonomní tabulky, ne kontroly, ne referenční integrita * L1 - konsolidovaný datový sklad - 2.-3 NF, ref. Integrita, integrovaná, konsolidovaná data, historie, subjektově orientovaná * L2 - presentační vrstva - multidimensionální model, určeno pro analysu :: (viz. obr ppt02/slide 5)
Jaké jsou základní technologické komponenty DW (stručně charakterisujte)
Datová úložiště - databáze pro ukládání dat DW, datamartů, ODS etc.
Integrace - extakce, transformace a load - přesuny mezi zdrojovými systémy a jednotlivými částmi a vrstvami DW
Visualisace: Analytické nástroje, reportovací nástroje, monitorování etc.
Datová kvalita
Modelování
Správa metadat
Jaké jsou základní typy pomalu se měncích dimenzí a čím se liší? (ppt04/slide 64)
Slowly Changing dimension :: * Type 1 * Ošetření změn: Přidání nových záznamů a update existujících záznamů v případě změn * Historie: Žádná * Type 2 * Ošetření změn: Přidání nových záznamů a verzování změn * Historie: Plná * Type 3 * Ošetření změn: Přidání nových záznamů a uchování současné a předchozí hodnoty v případě změny * Historie: Částečná
Jaké uplatnění nachází DM v bankách? Z business pohledu.
retence
cílený marketing
detekce podvodu
credit risk
money laundering
segmentace klientu
Jaké uplatnění nachází DM v telekomunikacích? Z business pohledu.
segmentace klientu
cílený marketing
detekce podvodu
credit risk
analýza obchodu
Jaké znáte úlohy DM? Z technického pohledu.
Deskripce
Segmentace (shlukování)
Klasifikace
Predikce
<!------------------------------>
Jaký formát dat je typicky vyžadován do SW pro data mining (pro algoritmy)? :: Typicky prvky n-dimenzionalneho vektoroveho priestoru na N alebo R.
<!------------------------------>
Jaký je rozdíl mezi minidimensí a subdimensí?
Minidimenze: skupina atributů je oddělena do samostatné tabulky, kde každý řádek představuje unikátní kombinaci hodnot (ppt04/slide 51)
Subdimenze: vypadají jako snowflake, ale mají odlišnou charakteristiku (ppt04/slide 49)
Minidimeze je obdoba subdimenze
Minidimenze má vazbu na tabulku faktů na rozdíl od subdimenze, která se váže na dimenzionální tabulku
<!------------------------------>
Která část kursu vás nejvíce zaujala? :: :-)
<!------------------------------>
Naznačte stručně, co je MDM Hub a jaké má funkce. :: MDM = Master data Management = Správa master dat :: MDM Hub: (ppt03/slide 36) * Forma realizace System of Record * Data a služby (funkce): * Často řešení Centrální DB (něco jako DW nebo ODS) - tvoří hub, skrz nějž jsou synchronizována master data, metadata a fyzická data * Mohou to být master tabulky nebo master soubory, v nichž se shromažďují a uspořádávají záznamy * Někdy využití existujících aplikací (CRM, ERP), pokud už obsahují potřebné definice
<!------------------------------>
Uveďte 3 nejpodstatnější vlastnosti řešení DWH, kterými se liší od jiných aplikací a systémů
Orientace na subjekt
Integrovanost
Nízká proměnlivost
Historizace
<!------------------------------>
Uveďte příklad semiaditivního ukazatele. :: Stav skladu (ks n. Kč) je ukazatel, který nelze sčítat v čase - tzv. semiaditivní :: (ppt04/slide 71)
<!------------------------------>
Uveďte příklady technologií ETL.
Informatica PowerCenter
IBM DataStage
Ab Initio
SAS Integration Studio
MS DTS
Oracle Warehouse Builder
Uveďte příklady technologií pro OLAP.
Multidimensionální databáze
Agregace
Writeback
Drill-through
Vyberte jeden DM algoritmus a popište jeho princip.
Rozhodovací strom
Kořen – všechny záznamy
Uzel se dělí dle podmínky na hodnoty atributů na své syny
Ideál – listy jsou „čisté“, tj. obsahují jen záznamy jedné třídy
Cesta kořen -> list odpovídá rozhodovacímu pravidlu
Blíže ke kořeni se štěpí podle významnějších atributů
Učení s učitelem
Výhody
Akceptují chybějící hodnoty
Akceptují spojité i diskrétní hodnoty
Snadná transformace na rozhodovací pravidla
Dá se použít jako výborný prostředek na zjištění nejdůležitějších proměnných
Mohou být interaktivní nebo se generovat celé na základě určitých stop kritérií
Nevýhody
Potíže s jinými regiony než obdélníkovitými
Mohou být příliš velké pro rozumné využití
Vyberte si algoritmus (jiný než v předchozím bodě) a popište jeho výhody a nevýhody.
Neuronové sítě
Výhody
Velmi dobré zejména při predikci spojitých atributů
Možnost použít pro mnoho typů problémů
Dobré výsledky i ve složitých doménách
Schopnost přirozeně řešit nelineární vazby mezi vstupy a výstupy
Nevýhody
Nejasná interpretace modelu
Možnost konvergovat k lokálnímu minimu
Výpočetně náročnější
Vstupní proměnné jsou spojité
Nutná příprava dat – škálovatelnost
Není jednoznačná vazba na významnost proměnných
Obecně neumí pracovat s chybějícími hodnotami
Vysvětlete pojmy ETL, ELT, EAI, EII.
ETL
Cíl: přemístit a přetransformovat data ze zdroje do datového skladu
Extract – nahrání dat ze zdroje
Transfer – zpracování dat
Load – nahrání dat do datového skladu
ELT
výběr dat ze zdroje
nahrání do vrstvy datového skladu
transformace dat v rámci databáze jejím jazykem
EAI
Podobne ako ETL ale nie dávkové spracovánie ale real-time
Zatím nedostačující výkon, takže pouze u jednoduchých transformací
EII
Enterprise Information Integration or EII, is a process of information integration, using data abstraction to provide a single interface (known as uniform data access) for viewing all the data within an organization, and a single set of structures and naming conventions (known as uniform information representation) to represent this data; the goal of EII is to get a large set of heterogeneous data sources to appear to a user or system as a single, homogeneous data source.
Category:Předměty
Category:Informatika