Smartmontools
Hauseigenes Apt-Repo: https://apt.iteas.at
Magnetische Massenspeichergeräte (Festplatten) arbeiten in mechanisch-technischen Grenzbereichen. Die Frage, ob sie irgendwann versagen, stellt sich daher nicht – interessant ist nur, wann dies der Fall sein wird. Bei den meisten Beschädigungen ist zwar eine Wiederherstellung durch Spezialisten möglich, welche aber ausgesprochen kostenintensiv ist und daher selten eine wirkliche Option darstellt.
Da diese Erkenntnisse nicht neu sind, wurden Strategien entworfen, wie sich Festplatten selbst reparieren können. Zusätzlich sollen sie die Sicherheit gewähren, dass das, was wichtig ist, nämlich die Daten auf dem Gerät, erst gar nicht zu Schaden kommen können. Die Hersteller der Geräte (P-ATA-, S-ATA- und SCSI-Industriestandardgeräte) haben ein Diagnosesystem entwickelt, welches den aktuellen Festplattenstatus möglichst genau bestimmen kann. Anhand dessen soll dieses über einen gewissen Zeitraum Prognosen liefern, wann welche Beschädigung vermutlich eintritt. Diese Technik trägt den Namen S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) und dessen Verwendung mit den S.M.A.R.T. Monitoring Tools {en} (smartmontools) ist Inhalt dieses Artikels.
apt update && apt install smartmontools
Jetzt noch zwei Dateien editieren:
nano /etc/default/smartmontools smartd_opts="--interval=10800" # alle 3 Stunden Check
nano /etc/smartd.conf DEVICESCAN -d removable -n standby -m root -M exec /usr/share/smartmontools/smartd-runner # prüft alle Devices #/dev/sda -m root -M test # only for mailtesting
Nun noch zu zuständigen Services aktivieren und starten:
systemctl enable smartmontools.service && systemctl start smartmontools.service systemctl enable smartd.service && systemctl start smartd.service systemctl status smartmontools.service && systemctl status smartd.service
Abfragen der letzten Smartwerte zum Healthstatus.
smartctl -H /dev/sde smartctl 6.4 2014-10-07 r4002 [x86_64-linux-4.2.8-1-pve] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED
Alle Smartwerte einer Platte bekommt man mit:
smartctl -a /dev/sde
Ein Auszug aus den Werten:
SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 24 3 Spin_Up_Time 0x0027 172 165 021 Pre-fail Always - 6400 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 105 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 059 059 000 Old_age Always - 30000 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 103 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 29 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 75 194 Temperature_Celsius 0x0022 120 106 000 Old_age Always - 30 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 4 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
Erklärung zu den Werten:
Ausgabe | Beschreibung |
Value | aktueller Parameterwert ⇒ allgemeine Tendenz: sinkend |
Worst | bisher schlechtester Wert |
Thresh | Grenzwert |
Type | Bei Grenzunterschreitung droht ein baldiger Ausfall (Pre-fail) / der Parameter informiert über Temperatur / Alterungsprozesse der Festplatte (Old age) |
Updated | Art der Aktualisierung: permanent (always) / Selbsttest (Offline data collection) |
WHEN_FAILED | Gefahrenzustand: Sofortiger Ausfall droht durch zeitweiligen Gleichstand oder Unterschreiten von Value mit Thresh !!! (FAILING_NOW) / keine akute Gefahr bei zeitweiligem Gleichstand oder Unterschreiten von Worst mit Thresh (In_the_past) |
Defekt Sektoren ausschließen/reparieren: https://wiki.ubuntuusers.de/Festplattenstatus/#Aufraeumen