Archiv/Státnice - Stromové vyhledávací struktury I2

{{Sources| Založeno na Státnice_-_Stromové_vyhledávací_struktury

09/10: Stromové vyhledávací struktury: binární stromy a jejich vyvažování, haldy, trie, B-stromy a jejich varianty.

14/15: Stromové vyhledávací struktury: binární stromy a jejich vyvažování, haldy, trie, B-stromy a jejich varianty. Relaxované vyhledávací stromy

}} {{zkazky|

Stromové vyhledávací struktury (2014, Fiala) - Přehledově trie, binární vyhledávací stromy, (a,b)-stromy. Podrobně haldy d-regulární, leftist, binomiální, líné binomiální, Fibonacciho.
Stromové vyhledávací struktury (2008, Spěchající teoretik) - Popsat jsem A4 binárními stromy, jejich procedurami insert a delete, popisem jak se vyvažují AVL stromy, a stručnými pravidly jak vypadají červenočerné stromy. Chtěl jsem si udělat i něco o B-stromech, haldách a triích, ale zkoušející si prohlédl můj papír s binárními stromy a prohlásil, že mu to stačí.

I1/I4:

Vyhledávací stromy (2013, Fiala,MJ) - Řekl jsem dospělácké věci: RB stromy jsou (2,4)-stromy, AVL jsou RB, RB jsou polovyvážené. Náhodné stromy jsou randomizovaný Quicksort. Splay tree, dynamická optimalita, statická optimalita. Počítání nebylo potřeba, ale chtělo by to trochu lépe znát operace.
Dynamizace, relaxované vyhledávací stromy, samoupravující datové struktury (Majerech+Čepek+Petr Kučera) - Dynamizaci jsem věděl, stačilo popsat ty dva způsoby semidynamizace a dynamizaci. Bez důkazů. To se jim celkem líbilo, a protože jsme tím zabili dost času, popsal jsem princip relaxovaných struktur jen stručně. Pak jsme se ještě zasekli u Splay stromů, ptali se, jak se u nich měří složitost, což jsem nějak nebyl schopný zodpovědět, aby s tím byli spokojeni. Zpětně mě napadá jen možnost, že jsem neřekl, že měříme amortizovanou hloubku stromu.

}}

Binární vyhledávací stromy (14×🎓)

{{zkazky|

Vyvazovani binarnich vyhledavacich stromu(2015, Kučera) - I3 - definice stromu a vyváženého stromu, AVL a CC, (hrubé) odhady logaritmické výšky. Popis rotace. Implementaci vyvažování jsem nepitvala vůbec, Kučera pak dloubal do operací, kde chtěl krom FIND, INSERT a DELETE nevynechat intervalové dotazy.
Vyvazovani binarnich vyhledavacich stromu(2015, Kopecky) - AVL + CC stromy. Dokazal jsem logaritmickou vysku CC stromu (ani dukaz AVL neni moc tezky). Popsal jsem vyvazovani a trochu zavahal u tezsiho prikladu vyvazeni CC stromu.
Vyvazovani binarnich vyhledavacich stromu (2014) - stihli jsme jenom AVL
Vyvážené binární vyhledávací stromy (2013, Koubek) - Napsal jsem: co je BVS (měl jsem tam chybu v podmínce), co je vyvážený strom a ústně jsem na jeho dotaz doplnil, že jeho hloubka je O(logn), definici AVL a Č-Č (u Č-Č jsem měl i nějaký odhad hloubky, ale Koubek vypadal, že si ho ani nevšiml), základní algoritmy – jen slovně a občas jsem tam měl drobnou chybku (např. jsem předpokládal, že vrchol má při odstraňování jednoho syna, ale on to mohl být i list), na příkladu AVL jsem se snažil popsat vyvažování. Neměl jsem to připravené, ale Koubek ty operace stejně přesně nechtěl. Spíš chtěl, abych mu řekl, že při vyvažování se nejen upravuje strom, ale také mění ta hodnota o vyvážení uložená ve vrcholech. Celkově mě překvapilo, že byl Koubek docela hodný (čekal jsem to horší podle předchozích zápisů). Když odcházel vypadal spokojeně. Koubek občas chytne za slovo, když člověk řekne něco co není pravda. Je třeba se nenechat zaskočit (což je samozřejmě těžké) a popřemýšlet nad tím, co se mu nelíbí.
Binarne vyvazene stromy (2012, Koubkova) - Rekl jsem definici AVL, RB, BB(alpha), dukaz hloubky AVL a nakonec par operaci nad AVL stromy. AVL jsem si vybral dobrovolne, mohl jsem rikat vic i o RB. Na nic moc se neptala a byla spokejena
Binarni stromy (2010, Kratochvil) - napsal sem co jsou binarni stromy, jak muzou zdegenerovat, jak vypada idealne vyvazeny binarni strom, popsat CC-stromy a AVL stromy, otazky byli ohledne slozitosti, jestli muzou rotace eskalovat a slozitost insert/delete znamka1
Bin. vyvažovacie stromy (2010, Kopecký) - stromy som zadefinoval (BS, AVL, CC), popísal member, insert, delete - obrázky, jednotlivé prípady, rotácie ČČ som nerozpisoval - napriek tomu, že som sa to učil, nervy hrali a nebol som to schopný dať na papier. Takže som popísal slovne, koľko akých prípadov nastane. Porovnal som medzi sebou ČČ a AVL stromy, povedal dôvod, prečo sa zavádzajú. Napísal som podstatné z dôkazu o výške oboch. Kopecký vyzeral spokojne a do technických detailov nevŕtal. Ďalšie otázky smerovali k optimálnym vyhľ. stromom - popísal som slovne konštrukciu - dynam. programovanie, spomenul možné zlepšenie zložitosti z kubickej na kvadratickú. Rozložiteľnosť úlohy. Pýtal sa na stromy s príslušnou amort. zložitosťou, či nejaké poznám. Odpovedal som, že poznám Splay stromy - popísal som, k čomu sú dobré, ako fungujú zhruba - Splay a prvok hore. Prečo to má v praxi dobré vlastnosti. To mu stačilo, povedal, že otázka o Splay tr. bola nad rámec, že len skúšal, kam siahajú znalosti.
Binární vyhledávací stromy (2009) - popsal jsem co je to binární strom, co je to BVS, jak se tam dělají jednotlivé operace, proč se zavádějí vyvažované stromy, definice k AVL a R-B, jaký je tam rozdíl v hloubce, jak se dělají vyvažovací operace. Jen lechce si zkoušející šťournul do vyvažovacích operací R-B (že je při delete potřeba 2xčerný vrchol a ještě nějaké detaily, nic do hloubky). Pak se ptal ještě na Splay stromy, ale o tom jsem nic nevěděl, nechal to tedy být s tím, že se to dnes asi už neučí.
Bin. vyvažovacie stromy (2010, Kopecký) - stromy som zadefinoval (BS, AVL, CC), popísal member, insert, delete - obrázky, jednotlivé prípady, rotácie ČČ som nerozpisoval - napriek tomu, že som sa to učil, nervy hrali a nebol som to schopný dať na papier. Takže som popísal slovne, koľko akých prípadov nastane. Porovnal som medzi sebou ČČ a AVL stromy, povedal dôvod, prečo sa zavádzajú. Napísal som podstatné z dôkazu o výške oboch. Kopecký vyzeral spokojne a do technických detailov nevŕtal. Ďalšie otázky smerovali k optimálnym vyhľ. stromom - popísal som slovne konštrukciu - dynam. programovanie, spomenul možné zlepšenie zložitosti z kubickej na kvadratickú. Rozložiteľnosť úlohy. Pýtal sa na stromy s príslušnou amort. zložitosťou, či nejaké poznám. Odpovedal som, že poznám Splay stromy - popísal som, k čomu sú dobré, ako fungujú zhruba - Splay a prvok hore. Prečo to má v praxi dobré vlastnosti. To mu stačilo, povedal, že otázka o Splay tr. bola nad rámec, že len skúšal, kam siahajú znalosti.
Binarni stromy, vyvazovani (2011, Majerech) - AVL, RB, hlavne definice a invarianty a hloubky, operace a rotace vlastne ani nechtel. Spocital se mnou minimalni pocet vrcholu pro danou hloubku u obou stromu a prestoze mi to moc neslo, tak byl nakonec spokojenej.
BVS a jejich vyvažování (2010, Kopecký) - BVS, AVL stromy, RB stromy, rotace. Vytvoření statického stromu pomocí dynamického programování. Mluvili jsme také o splay stromech.
AVL, CC stromy (2010, Löebl) - Bez problému, definice, rotace, nic moc do hloubky.
AVL stromy (2009, Koubkova) - Toto bolo velmi v poho. Napisal som zopar definicii, ukazal rotacie a zlozitosti operacii. Potom mi dala priklad ktory sme spolu spravili a koniec.
Binární stromy a vyvažování (2009, Surynek) - Definice BS, BVS, operace, jejich složitosti, nejhorší případ. AVL - definice, důkaz logaritmické výšky, rotace, příklad vkládání několika prvků. RBT - definice, důkaz logaritmické výšky, výhody/nevýhody oproti AVL, hustota AVL vs. RBT, stejný příklad s vkládáním. Stručně BB-α, splay stromy (kdy se hodí), optimální BVS.
Stromové vyhledávací struktury (2008, Spěchající teoretik) - Popsat jsem A4 binárními stromy, jejich procedurami insert a delete, popisem jak se vyvažují AVL stromy, a stručnými pravidly jak vypadají červenočerné stromy. Chtěl jsem si udělat i něco o B-stromech, haldách a triích, ale zkoušející si prohlédl můj papír s binárními stromy a prohlásil, že mu to stačí.

I1/I4:

Vyvazovani binarnich vyhledavacich stromu (2013, Koubkova) - co, proc jak, priklad, algoritmy ne, radsi obrazky. U vyvazovani stacilo popsat rotace, nejaky prilad insertu, pak jsme pokecali o tom jak se to da delat obecne v AVL stromech (jen zhruba) a nakonec me nechala zadefinovat RB-stromy.
AVL stromy (2012, Koubkova, ale zkousel de facto Koubek) - Napsal jsem definici, ukazal logaritmickou vysku, nakreslil rotace. Popisoval jsem insert a delete, Koubek mi do toho zacal docela dost rypat, nejakou dobu jsme se nemohli poradne dohodnout, jak presne detekuji, ze se strom rozvazil. :) Nakonec jsme to nejak dali dohromady, ale asi se vyplati mit to opravdu vsechno promyslene, nez to jdete predvadet, abyste to nemuseli dovymyslet za behu.

}} Soubor:Tree%20rotation2.png

**BVS **- uzel má dva syny

levy podstrom obsahuje mensi nez klic
pravy podstrom vetsi

AVL-stromy

Pravidla: - ∀uzel platí: **výška ** jeho levého a pravého podstromu se liší nejvýše o 1, uchováváme si v uzlu o tom info {-1,0,1}

Logaritmická výška

{{Theorem|AVL strom o n vrcholech má výšku nejvýše 2·log(n)|logaritmická výška AVL}}Dk (indukcí): N(h) min počet vrcholů AVL stromu výšky h. N(0)=1

N(1)=2 N(h)=1 + N(h-1) + N(h-2)

zřejmě platí N(h) > 2·N(h-2): N(h) > 2·N(h-2)

    > 2·(2·N(h-4)) = 2²·N(h-4)
    > 2²·2·N(h-6) = 2³·N(h-6)

    ...
    > 2ʰ<sup>/</sup>²

Dostanem N(h)>2ʰ/² a z toho vyjádříme h: h < 2·log N(h).

Insert (max 2 rot.)

postupujeme od nově přidaného uzlu směrem nahoru a cestou opravujeme balance uzlů podle hloubky podstromů
- pokud se balance uzlu změnila na 2 nebo –2 (silně nevyvážený vrchol) - > je nutná reorganizace stromu … operace rotace (LR a RL rotace jde brat jako jednu)
- zrotovaný podstrom má stejnou výšku jako původní, takže není potřeba postupovat dále nahoru ke kořeni stromu (tzn. rotace 1x a dost)

Delete (může mít rotace až do kořene)

vyhledat uzel s rušenou hodnotou a odebrat ho jako v BVS:
- má- li 0 nebo 1 syna - > vypustit přímo tento uzel U
- má- li 2 syny, nahradit jeho hodnotu maximem z levého podstromu (nebo minimem z pravého podstromu) a vypustit ze stromu tento náhradní uzel U
- případného syna uzlu U přepojit na otce uzlu U místo U samotného
postupujeme od otce zrušeného uzlu směrem nahoru ke kořeni stromu, v každém uzlu přepočítáváme balanci
- pokud vznikne silně nevyvážený vrchol (hodnota 2 nebo –2), provedeme v tomto uzlu rotaci – z balance uzlu a jeho synů vyplývá potřebný druh rotace (LL, LR, RR, RL), při rotaci se opraví údaje o výšce a balanci dotčených uzlů
- cestou se může provádět rotace až log n krát

časová složitost Find,Insert,Delete je nejvýše rovna výšce stromu, tzn. O(log N)

Červeno-černé stromy

**3 pravidla: **

Listy je černé.
Červený vrchol musí mít oba syny černé.
Každá **cesta **od libovolného vrcholu k listům v jeho podstromě musí obsahovat stejný počet černých uzlů. Pro červeno-černé stromy se definuje černá výška uzlu ( $\mathbf{bh}(x)\,\!$ ) jako počet černých uzlů na nejdelší cestě od uzlu k listu.

Logaritmická výška

{{Theorem|ČČ strom o n vrcholech má výšku O(log n)|logaritmická výška ČČ}}**Dk (přímo): **k-poč.černých vrcholů v cestě k listu, n-počet vrcholů

minimální strom má všechny vrcholy černé (v cestě počtu k) ⇒ hloubka k-1 a počet vrcholu je 1+2+...+2k-1 = 2k-1;

maximální: střídavě černé a červ. ⇒ hloubky 2k-1 a pocet vrcholu je 1+2+...+22k-1 = 22k-1;

2k-1 ≤ n ≤ 22k-1 ⇒ k ≤ log2(n + 1) ≤ 2k

a dále tedy k ≤ hloubka ≤ 2k ⇒ hloubka O(log n)

Insert (max 1 rot.)

nový vrchol N se přebarví načerveno
otec černý ⇒ **skončit **-- vlastnosti stromů jsou splněné.
otec červený, musíme strom upravovat (předpokládejme, že otec přidávaného uzlu je levým synem, opačný připad je symetrický):
- strýc červený, přebarvit otce a strýce načerno a přenést chybu o patro výš (je-li děd černý, končím, jinak můžu pokračovat až do kořene, který už lze přebarvovat beztrestně) :: Soubor:Rb%20insert1.png
- strýc černý a přidaný uzel N je levým synem ** ⇒** pravá rotace na dědovi a přebarvit uzly tak, aby odpovídaly vlastnostem stromů :: Soubor:RB%20case%202.png
- strýc černý a přidaný uzel N je **pravým synem ⇒ ** levá rotaci na otci a převést tak na předchozí případ

Delete (max 2 rot.)

{{collapse|detailně|2=

Skutečně odstraněný uzel (z přepojování -- viz <#Obecn.C3.A1_.28nevyv.C3.A1.C5.BEen.C3.A1.29_implementace>) má max. jednoho syna. Pokud odstraňovaný uzel byl červený, neporuším vlastnosti stromů, stejně tak pokud jeho syn byl červený -- to řeším přebarvením toho syna načerno.
V opačném případě (tj. syn odebíraného -- $x\,\!$ -- je černý) musím udělat násl. úpravy (předp., že $x\,\!$ je levým synem svého nového otce, v opačném případě postupuji symetricky):
- $x\,\!$ prohlásím za "dvojitě černý" ("porucha") a této vlastnosti se pokouším zbavit.
- Pokud je (nový) bratr $x\,\!$ (buď $w\,\!$ ) červený, pak má 2 černé syny -- provedu levou rotaci na rodiči $x\,\!$ , prohodím barvy rodiče $x\,\!$ a uzlu $w\,\!$ a převedu tak situaci na jeden z násl. případů:
  - Je-li $w\,\!$ černý a má-li 2 černé syny, prohlásím $x\,\!$ za černý a přebarvím $w\,\!$ načerveno, rodiče přebarvím buď na černo (a končím) nebo na "dvojitě černou" a propaguji chybu (mohu dojít až do kořene, který lze přebarovat beztrestně).
  - Je-li $w\,\!$ černý, jeho levý syn červený a pravý černý, vyměním barvy $w\,\!$ s jeho levým synem a na $w\,\!$ použiji pravou rotaci, čímž dostanu poslední případ:
  - Je-li $w\,\!$ černý a jeho pravý syn červený, přebarvím pravého syna načerno, odstraním dvojitě černou z $x\,\!$ , provedu levou rotaci na $w\,\!$ a pokud měl původně $w\,\!$ (a $x\,\!$ ) červeného otce, přebarvím $w\,\!$ načerveno a tohoto (teď už levého syna $w\,\!$ ) přebarvím načerno.

}} Každý algoritmus pracuje jen s vrcholy na jedné cestě od kořene k listům a s každým dělá konstantně činností, takže všechny algoritmy mají logaritmickou složitost. DELETE volá max. 2 rotace nebo 1 rotaci a 1 dvojrotaci, INSERT zase max. 1 rotaci nebo dvojrotaci (i když přebarvovat můžou rekurzivně až do kořene).

Find,Insert,Delete vždy v O(log n)
máme více případů ale zase jen max 2 rotace (Delete)

B-Stromy a jejich varianty (6×🎓)

Trie (3×🎓)

Image:Trie%20example.png

{{zkazky|

Trie (2012, Koubek, Dvořák) - Taktéž lehce neočekáváné, naštěstí ne příliš těžké. Koubek ke me přiběhl lehce před oficiálním termínem, takže jsem ještě neměl hotový papír o komprimaci trie. Odříkal jsem mu základní definice, vlastnosti, ukázal vše na nakreslesném příkladu. Koubek, dobře si vědom mé schopnosti přesně definovat cokoliv, nelpěl příliš na detailech. Chtěl doplnit delete a pak jsme se vrhli na komprimaci, která trochu vázla, neb jsem ji neměl připravenou, ale nakonec jsme se dobrali výsledku. Dvořák přišel se záludným dotazem, co by se změnilo, kdyby to nebyl prefixový, ale sufixový strom. Otevřeně jsem přiznal, že nemám tušení a oba pak se slovy, že to nebylo v otázce, odkáčeli směr tabule.
Hashovanie a trie (2011, I3 - Zeman) - Nastastie taka prehladova otazka, kedze som ju odpovedal ako poslednu, tvoril som to pocas odpovedania, rozpisal som druhy hashovania, potom zmienil univerzalne (principy ~ ku kazdej S vyberieme nejaku fciu z H, H c-univerzalna, napisal som funkciu h_ab(x), a ze je c-univerzalna), perfektne hashovanie, opat som zacal ako to principialne funguje a v polovici som bol zastaveny a ze mam este o triach porozpravat, tak som opat vysvetlil princip, dalej ako sa to potom komprimuje (v style, potom vznechame tie uzly, kde nedochadza k plodnemu vetveniu, potom to mozeme zapisat do tabulky, tu do dvoch poli, etc), spokojnost
Trie (2011, P. Kucera) - Vedel jsem jen uplny zaklad jak to vypada a k cemu se to pouziva, celkove jsem popsal tak 1/2 stranky s kratkym prikladem. Cekal jsem, ze tohle mozna neprojde, ale Kucera jen rekl, ze to jsou jen ty trivialni veci, ze ty hezke, netrivialni se tykaji komprimace struktury, ale ze vim co to je, ze priklad, co jsem napsal se mu libi (bo nahodou jsem ho nacmaral tak, ze se na nem nedalo dobre ukazat, jak super je ta komprimace, co jsem neumel:) a pustil mne. 3

I1/I4:

Trie(2014, Majerech) - Zakladni jsem dal, prvni komprimaci jsem se s nima trochu hadal, protoze me to prijde uplne blby (videl jsem to jinde definovane jinak, ale asi jenom pro asymptoticke vypocty, protoze tak jak je to v Koubkovy to opravdu dava smysl pro implementaci na realnym pocitaci). Komprimaci do listu mi Majerech vysvetlil, ja jsem o tom neco rekl (no OK to fakt nebylo).

}} Redundantní n-ární prefixový strom (z angl. retrieval) určený k** **reprezentaci operace Member v O(l).

Jsou datově úsporné - pro uložení jednoho klíče je třeba jen amortizovaně konstantní prostor.

Trie nad Σ je konečný strom, jehož vnitřní vrcholy mají k synů ohodnocených znaky abecedy Σ.

Každému vrcholu lze rekurzivně přiřadit slovo nad abecedou Σ takto:
- Kořenu odpovídá prázdné slovo λ
- Syn ohodnocený písmenem a odpovídá slovu otce konkatovanému s a
∀vnitřní vrchol je prefixem nějakého slova z reprezentované množiny S
∀list (nebo i vnitřní uzel?) obsahuje bit zda slovo co představuje je v S

INSERT dojde do listu podobně jako MEMBER. Potom (je-li to potřeba) mění listy na vnitřní vrcholy a vkládá pokračování cesty až do dosažení délky slova. V posledním kroku upraví indikaci v listu.

DELETE vyhledá prvek a nastaví indikaci v jeho listu na FALSE. Pak se postupně vrací a dokud nalézá jen samé listy s FALSE, zruší celý vrchol a změní ho na list s FALSE.

**Složitosti časové: **Member - O(I) , Insert/Delete - O (lk)

Paměťová složitosti: je od O(|S|lk) (žádné společné prefixy) po O(|S|) (v případě že reprezentujeme U)

Komrimované Trie

vytvoření klasické trie s min.hloubkou je NPC (?)

Vynecháme vrcholy bez větvení, musíme si pak ale udržovat ve vrcholech hodnotu aktuální hloubky a v listech celá výsledná slova:

uroven(v) - číslo úrovně vrcholu v odpovídajícím někomprimovane trie
slovo(v) - slovo odpovídající vrcholu v

Soubor:Trie.png

Insert a Delete můžou pak rozšiřovat, krátit strom.

**Časová složitost: **Member - O(I) , Insert/Delete - O(l+k) ,

Paměťová složitost: O(|S|k)

**Ještě komprimovanější trie: **Reprezentace řídkou maticí. Paměťová náročnost O(n) a nepodporují Insert/Delete

Aplikace:

autocomplete slovníky
náhrada za hashování**<nowiki/>**

Haldy (9×🎓)

Relaxované vyhledávací stromy

{{zkazky|

Dynamizace, relaxované vyhledávací stromy, samoupravující datové struktury (I4 - Majerech+Čepek+neznámý teoretik): Dynamizaci jsem věděl, stačilo popsat ty dva způsoby semidynamizace a dynamizaci. Bez důkazů. To se jim celkem líbilo, a protože jsme tím zabili dost času, popsal jsem princip relaxovaných struktur jen stručně. Pak jsme se ještě zasekli u Splay stromů, ptali se, jak se u nich měří složitost, což jsem nějak nebyl schopný zodpovědět, aby s tím byli spokojeni. Zpětně mě napadá jen možnost, že jsem neřekl, že měříme amortizovanou hloubku stromu.

}} Skripta Koubek str 16. podkapitola 3, Článek "Relaxed Balanced Red-Black Trees"

Co se stane se stromy, kde po přidání/odebrání nevyvažujeme. Rychlejší operace, více uživatelů zároveň, vyvažování necháme na později. Tyto stromy nazýváme relaxované.

Možná degenerace stromu - delší vyhledávání
Lze jednoduše nevyvážený strom vyvážit bez přebudování celé struktury?

Požadavek

v - vrchol černý a v podstromu vrcholu chybí jeden černý uzel
b - vrchol i jeho otec červené, exkluzivní, s vrcholem nesmí být svázán žádný jiný požadavek

Příklad na RB stromech, lze analogicky pro ostatní. Máme frontu vyvažovacích požadavků, pokud prázdná, strom je vyvážený.

Nad daty pracuje několik procesů najednou:

uživatelský - provádí vyhledávání, přidávání a odebírání. Pokud po aktualizaci vznikne požadavek na vyvážení, přidá ho do fronty
správcovký - bere vhodné požadavky z fronty a provádí je. Požadavky mohou být buď zcela ošetřeny nebo transformovány v jiný požadavek blíže kořeni.