Deduplikace

Z Wikipedie, otevřené encyklopedie
Zjednodušené schema deduplikace

Deduplikace je speciální technika komprese dat, která zabraňuje ukládání stejných datových bloků na jednom úložišti. Deduplikační jednotka ukládá informace (referenční informace) o datové struktuře a díky tomu je schopná při zpětném čtení deduplikovaných dat zpět obnovit původní, komplexní informaci. Účelem deduplikace je úspora místa na datovém úložišti. Kromě této varianty, tzv. blokové deduplikace, existuje ještě deduplikace na úrovni souborů, kdy je ukládána pouze jedna kopie (instance) souboru/přílohy e-mailu. Příkladem budiž ukládání e-mailových zpráv v systému Microsoft Exchange[1], nebo Single-instance storage ve Windows[2].

Metody deduplikace[editovat | editovat zdroj]

Podle toho, kdy je spuštěna[editovat | editovat zdroj]

Post-procesní deduplikace[editovat | editovat zdroj]

Nová data jsou nejprve uložena na cílové úložiště a poté off-line deduplikována. Nevýhodou je nutnost disponovat kapacitou úložiště odpovídající reálnému množství datových bloků. Ty jsou ukládány a teprve následně (po skončení procesu ukládání) optimalizovány.

In-line deduplikace[editovat | editovat zdroj]

Data jsou deduplikována ještě před uložením na cílové úložiště v reálném čase. Vyhodnocuje se přítomnost datového bloku na úložišti a pokud již existuje, nezapíše se. Pouze je vytvořena reference na datový blok v deduplikační jednotce. Nevýhodou je pomalejší „zápis“ na cílové úložiště, který je zpomalen rozhodovacím procesem deduplikační jednotky. V současnosti jsou však nabízena řešení, která se výkonnostně blíží post-procesním deduplikačním systémům.

Podle toho, kde je spuštěna[editovat | editovat zdroj]

Zdrojová deduplikace[editovat | editovat zdroj]

Zajišťuje deduplikaci na zdroji dat. Často bývá uplatňována v rámci operačního systému. Operační systém pravidelně kontroluje hashe vzniklé při tvorbě nových souborů a porovnává je s již existujícími hashi již existujících souborů. Pokud je nalezena shoda, kopie souboru je odstraněna a je vytvořen ukazatel na starý soubor. V praxi je tato metoda upozaďována před cílovou deduplikací z výkonnostních důvodů. U primárního úložiště (DAS serveru apod.) je většinou kladen důraz na vysoký výkon, který deduplikační proces může negativně ovlivnit.

Cílová deduplikace[editovat | editovat zdroj]

Zajišťuje deduplikaci na sekundárním úložišti (např. v disk-to-disk schématu, nebo u VTL – virtuální pásková knihovna). Jde o v praxi preferovanější metodu.

Situace na trhu[editovat | editovat zdroj]

V současnosti jsou používány deduplikační systémy jako kombinace diskového pole (např. VTL) a deduplikačního softwaru. K dispozici jsou řešení společnosti NetApp, IBM, EMC, NortonLifeLock a další.

Reference[editovat | editovat zdroj]

  1. http://support.microsoft.com/kb/175481/en-us/ - Technika Single-Instance Storage v Microsoft Exchange
  2. http://technet.microsoft.com/en-us/library/cc978320.aspx - Popis single Instance Store na Microsoft Technetu

Externí odkazy[editovat | editovat zdroj]