S.M.A.R.T.

Z Wikipedie, otevřené encyklopedie

Self-Monitoring, Analysis, and Reporting Technology (S.M.A.R.T.) je v informatice monitorovací systém pro pevné disky. Firmware sleduje uvnitř pevného disku během provozu různé parametry, které je možné přenést do počítače. Pomocí zjištěných údajů může správce systému včas předvídat selhání disku a uložená data zálohovat. Systém S.M.A.R.T. definuje hlavně způsob komunikace disku s počítačem, takže jednotlivé implementace se u různých výrobců liší.

Poruchy pevných disků[editovat | editovat zdroj]

Poruchy pevných disků můžeme rozdělit do dvou hlavních kategorií:

Předvídatelné poruchy
Předvídatelné poruchy většinou gradují postupem času (například mechanické opotřebení). Monitorovací zařízení umí zjistit tyto problémy a signalizovat jejich stav, podobně jako kontrolka na palubní desce auta signalizuje přehřátí motoru. Toto monitorování může pomoci předejít daným problémům, nebo umožnit jejich nápravu dříve, než bude příliš pozdě.
Nepředvídatelné poruchy
Nepředvídatelné poruchy nastávají náhle, bez předchozích náznaků. Důvod může být různý, od poškození elektroniky disku, po fyzickou destrukci (např. vlivem silných otřesů - pád disku a podobně).

Mechanické poškození je zodpovědné za 60 % všech selhání.[1] Většině těchto poruch, ale předchází množství indikátorů, jako například zvýšené zahřívání disku, zvýšený hluk, problémy s čtením či zápisem dat, zvyšující se počet poškozených sektorů, a podobně. Při opakovaném monitorování těchto příznaků lze tedy s nezanedbatelnou pravděpodobností určit, zda vývoj hodnot značí blízkou poruchu.

Zaměstnanci firmy Google ve své práci zjistili několik parametrů disku, které mají skutečně úzký vztah k poruchám disků, nicméně dle jejich měření odhady, založené čistě na S.M.A.R.T. atributech jsou zřídkakdy užitečné pro předpověď selhání individuálního disku. Při nasazení na rozsáhlejší populaci disků je jejich vypovídací hodnota vyšší, ale pro vytvoření spolehlivého modelu předpovědí nejsou tyto informace samy o sobě dostačující. Tvůrci práce dále poukazují například na to, že vyšší teplota, nebo časté užívání nemají zřejmě tak velký vliv, jak bylo dříve naznačováno.[2]

Příklady poruch a jejich indikátorů:

Typ poruchy Indikace
poškození povrchu disku vzrůstající počet vadných/přemapovaných sektorů
poškození hlavy nárůst měkkých chyb („soft errors“), opakované pokusy o čtení, ECC chyby
poškození motoru vibrace, zvýšený hluk motoru, ložisek, nárůst času potřebného k roztočení disku
poškození elektroniky disku žádné (náhlá porucha)
poškození vystavovacího mechanismu chyby při vyhledávání uložených dat („seek“)

Historie[editovat | editovat zdroj]

První monitorovací technologie byla představena IBM v roce 1992 v jejich diskových polích IBM 9337 používajících SCSI-2 disky. Tato technologie byla pojmenována Predictive Failure Analysis (PFA, analýza předvídatelných poruch). Metoda spočívala v měření několika parametrů, klíčových pro spolehlivost disku, a jejich vyhodnocování ve firmwaru disku. Komunikace mezi fyzickým diskem a monitorovacím softwarem byla omezená pouze na 2 stavy: disk je v pořádku nebo disk pravděpodobně brzo selže.

Později byla firmami Compaq, Seagate, Quantum a Conner vytvořena technologie IntelliSafe. Sledovány byly parametry „zdraví“ (spolehlivosti) disku, tyto hodnoty byly přenášeny do operačního systému a zobrazovány monitorovacím softwarem. Každý výrobce disků se mohl sám rozhodnout, jaké parametry zahrne do monitorování, i jaké pro ně budou prahové hodnoty. Sjednocení bylo na úrovni protokolu komunikace mezi diskem a počítačem.

Compaq předložil svou implementaci na počátku roku 1995 komisi pro standardizaci, která technologii IntelliSafe schválila. Výsledný standard byl pojmenován S.M.A.R.T.

S.M.A.R.T.[editovat | editovat zdroj]

Nejzákladnější informace, kterou S.M.A.R.T. poskytuje, je S.M.A.R.T. status. Status nabývá pouze dvou hodnot: „prahová hodnota nepřekročena“ a „prahová hodnota překročena“. Tyto stavy jsou také často reprezentovány jako „disk je v pořádku“ a „disk selhal“ (myšleno z hlediska S.M.A.R.T. testu), respektive stav „prahová hodnota překročena“ lze reprezentovat jako relativně vysokou šanci, že disk v blízké budoucnosti selže. Předpovídané selhání může být fatální porucha, nebo také pouhé snížení výkonnosti kvůli drobným problémům.

Detailnější pohled na stav disku je možné získat prozkoumáním S.M.A.R.T. Atributů. S.M.A.R.T. Atributy byly obsaženy v některých návrzích ATA standardů, ale byly odstraněny z finálního standardu. Monitorování a interpretace S.M.A.R.T. Atributů se totiž u jednotlivých výrobců liší. Nelze tedy přímo podle atributů porovnávat disky různých výrobců, jelikož disky nemusí monitorovat stejné atributy, a nebo mají nastavené jiné interpretace a prahové hodnoty stejných atributů. Disky s podporou S.M.A.R.T. technologie mohou také umožňovat „logování“ událostí a chyb spojených s diskem. Tyto záznamy („logy“) mohou pomoci při údržbě a servisu počítače (např. určit, zda příčinou problémů s počítačem je pevný disk).

Další vlastností některých disků podporujících S.M.A.R.T. technologii, je možnost testovat daný disk (tzv. On-Self-Test), například na zjištění chyb povrchu disku (vadných sektorů). Výsledky těchto testů se také většinou ukládají do „logů“ a jejich analýzou lze zjistit stav disku.

Všechny tyto informace S.M.A.R.T. technologie slouží k minimalizování rizika ztráty dat. Smysl těchto informací spočívá v predikci selhání a umožnění zálohy dat dříve, než k němu dojde. S.M.A.R.T. technologie je technologií informační, neobsahuje prostředky k obnově dat v případě, že k selhání již došlo. To znamená, že S.M.A.R.T. technologie není nic platná v případě náhlého selhání, v případě, že informace nejsou uživatelem správně vyhodnoceny a v některých případech nemusí S.M.A.R.T. indikovat správný stav disku (disk označený jako nespolehlivý může fungovat bez vážných problémů ještě několik let a naopak).

Mezi výrobce podporující S.M.A.R.T. patří: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital and ExcelStor Technology.

Atributy[editovat | editovat zdroj]

Každý výrobce disků si definuje vlastní sadu atributů a stanoví jejich prahové hodnoty, k jejichž překročení by nemělo za normálních podmínek dojít (práh může nabývat hodnot 0 - 253, při nule nemůže atribut selhat - nezapočítává se do S.M.A.R.T. statusu). Atributy mají takzvanou “syrovou hodnotu” (raw value), která často označuje fyzickou hodnotu dané veličiny (např. stupně v Celsia,počet vadných sektorů,sekundy) a normalizovanou hodnotu (v rozmezí 1/nejhorší - 253/nejlepší) odvozenou podle aktuálního stavu (syrové hodnoty), která je porovnávána s hodnotou určenou jako normální (tzn. bez jakýchkoli problémů). Nastavení těchto hodnot a prahu je ovšem čistě věcí výrobce, tudíž dva různé disky mohou zobrazovat při stejném fyzickém stavu jiné hodnoty pro daný atribut.

  • Příklad 1:

ID Atributu je 4 („počet roztočení disku“): Hodnota je 253, nejhorší zaznamenaná hodnota je 253, práh je 0, syrová hodnota je 1324. Jelikož nedochází ke zhoršování hodnoty (hodnota je rovna nejhorší naměřené) a práh je 0, je tento atribut pouze informační a nemá vliv na S.M.A.R.T. status disku. Syrová hodnota v tomto případě udává počet roztočení disku.

  • Příklad 2:

ID Atributu je 5 („počet přemapovaných sektorů“): Hodnota je 112, nejhorší zaznamenaná hodnota je 112, práh je 63, syrová hodnota je 3. V tomto případě má již atribut přímou souvislost se spolehlivostí disku (práh má hodnotu 63), ale hodnota 112 je nad prahovou hodnotou, takže lze předpokládat že disku nehrozí v blízké době žádné selhání, ale není již v bezvadném stavu (hodnota atributu je pod 253, syrová hodnota značí 3 přemapované sektory). Pokud by se počet přemapovaných sektorů zvětšoval, mohlo by to pravděpodobně znamenat blížící se selhání disku a bylo by tedy vhodné provést zálohu.

Zde je uveden a přeložen report nejběžnějších chybových hlášení tabulky S.M.A.R.T.

Reference[editovat | editovat zdroj]

  1. Seagate Product Marketing. Get S.M.A.R.T. for Reliability [online]. California, USA: Seagate, rev. 1999-07-13 [cit. 2009-09-06]. Dostupné v archivu pořízeném dne 2006-03-28. (anglicky) 
  2. Failure Trends in a Large Disk Drive Population (Conclusion section), by Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz André Barroso, Google Inc. 1600 Amphitheatre Pkwy Mountain View, CA 94043