Super...
Alors on a tout d'abord la liste des attributs SMART et voici ceux qui sont importants (à mes yeux, chacun à ses préférences...):
5 Reallocated_Sector_Ct
avec
RAW_VALUE
à 0 indique le nombre de secteurs réalloués.
9 Power_On_Hours
avec +42k heures... bon ça dit que le disque a déjà un peu tourné.
12 Power_Cycle_Count
ça donne une idée sur le nombre d'allumage du disque (+12k)
193 Load_Cycle_Count
pour les disques WD (notamment ce modèle blue) c'est un paramètre important car le disque est spécifié pour un certain nombre de LCC (j'ai plus les valeurs en tête, cela change selon la couleur du disque) mais là à plus de un million, on est bien au delà de ce qui est spécifié par WD. Le Load Cycle Count c'est le nombre de fois que la tête va se parquer dans le disque. Il y a un timer (qu'on peut configurer mais pas aussi facilement) qui permet de rallonger le temps ou carrément de le désactiver. Bien sûr le parquage des têtes n'est pas très bon car ça accélère le vieillissement (ça peut être utilise par contre pour protéger le disque en cas de choc mais sur un serveur, c'est peut intéressant... à l'opposé d'un portable par exemple.).
194 Temperature_Celsius
il faut surveiller que la température ne dépasse pas 40°C pour les disques de manière constante, cela accélère le vieillissement également.
197 Current_Pending_Sector
bon celui là on en a déjà parlé...
198 Offline_Uncorrectable
et celui là c'est le nombre de secteur offline ou défectueux. Il est à 0 c'est plutôt bien.
Ensuite il y a les attributs:
1 Raw_Read_Error_Rate
nombre d'erreurs de lecture. Ce paramètre est un peu difficile à interprêter. On peut le surveiller pour voir s'il augmente fortement au cours du temps ou pas.
196 Reallocated_Event_Count
nombre de tentative de réallocation de secteurs. Je vois pas trop la différence avec #5... mais si ça augmente, c'est qu'il y a quelque chose. Ensuite, ça devrait augmenter avec #5 (peut-être plus rapidement que #5).
199 UDMA_CRC_Error_Count
erreurs CRC, si ce nombre augmente il peut indiquer un câble défectueux.
200 Multi_Zone_Error_Rate
couvre plusieurs types d'erreurs lors de l'écriture de données (et lecture?), difficile à interpréter mais on peut le surveiller, s'il évolue peut indiquer qu'il y a un problème.
Dans la partie résultat de tests SMART on a:
Code:
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 41502 21025400
# 2 Extended offline Completed: read failure 90% 41502 21025400
# 3 Short offline Completed without error 00% 36383 -
# 4 Extended offline Completed without error 00% 36279 -
Le test étendu numéro 1 et 2 ont trouvé des erreurs au bloc numéro 21025400.
Comme il ne s'agit que d'un test en lecture, SMART ne sait pas encore si le secteur en question est défectueux ou pas. Cela sera confirmé lors de la prochaine tentative d'écriture à ce bloc (ce qui peut ne jamais arriver... mais on peut aussi forcer une écriture à ce bloc mais c'est un peu plus compliqué.).
Une remarque à ce niveau là: le disque n'a pas eu beaucoup de tests SMART effectués. C'est une bonne pratique d'effectuer un test long (ou étendu) par mois et un court par semaine. Là on voit des tests courts effectués à 36k heures puis un trou et ça reprend à 41k heures.
Et avant 36k heures, pas de tests longs...
Pour conclure:
- Je recommande de planifier les tests longs et courts régulièrement. Cela va permettre aussi de surveiller le disque. Si le LBA_of_first_error change ou pas, ça donnera déjà une indication. Et cela pour
tous les disques du système bien sûr!
- Surveiller les attributs #197, #198 et #5. S'ils n'évoluent pas alors y'a pas forcément urgence à changer le disque je dirai (compte tenu également du fait qu'il est utilisé pour le dataset system et est en miroir).