Problème disque dur

Rosin0416 · Jun 30, 2021

Bonjour, je vous contacte car j'ai eu une alerte "rouge" sur l'un de mes disque dur avec le message suivant :

Device : /dev/ada1 Self-test log error count increased from 0 to 2
Device : /dev/ada1 3 currently unreadable (pending) sectors

Petites précisions :
Ce disque ne fait pas partie du pool de stockage.
Le pool contenant ce disque contient le "system dataset"
Le pool en question est en miroir
Les données du pool de données sont bien sauvegardées.

Mes questions :
Que signifie ces erreurs, j'ai du mal à les déchiffrer, et de savoir ce que cela implique.
Je crois comprendre sur le 2ème message que certains secteur du disques ne sont plus lisibles. Est-ce que les mauvais secteurs ont été déplacés vers des bons secteurs ?
Du coup le disque est-il vraiment mort ?
Y-a-t-il urgence ?

Vous allez me dire il faut changer le disque. Oui c'est prévu.

Cordialement

Pitfrr · Jun 30, 2021

Bonjour,

Il y a deux problèmes avec le disque /dev/ada1:
- Self test: le disque a exécuté un self test qui s'est soldé par un échec (y'a même deux erreurs).
- Unreadable sectors: le disque a semble-t-il 3 secteurs non lisibles. Ces secteurs ne sont pas encore confirmés (car "pending"). Comme c'est géré par la fonctionnalité SMART du disque, celle-ci ne fait que des tests en lecture (donc non destructif) et pour confirmer les secteurs non lisibles, il faudrait pouvoir écrire...
De ma compréhension de SMART (mais je suis pas sûr à 100% à ce niveau là...), dans ce cas là, les secteurs ne sont pas déplacés. Déjà, il ne peut pas puisqu'il peut pas les lire... mais SMART tentera de déplacer ces secteurs lors de la prochaine tentative d'écriture sur ces secteurs. Et c'est alors que ces secteurs passeront de "unreadable (pending)" à "Offline uncorrectable".
On peut aussi forcer manuellement la réécriture mais c'est un peu plus compliqué (et il faut connaître l'adresse de ces secteurs).

Dans tous les cas, pour en savoir plus, il faudrait avoir le résultat de la commande:
smartclt -a /dev/ada1
(merci de copier-coller le résultat en utilisant les balises CODE)

Cela va afficher les informations SMART du disque en question et on y verra plus clair, notamment cela devrait afficher le log des tests SMART et montrer les erreurs rencontrées. Et on verra aussi si y'a d'autres secteurs non lisibles ou s'il y a des secteurs déjà réaffectés.

Alors oui, ce type de message peut-être un avertissement que le disque risque de tomber en rade... A prendre très au sérieux (tant qu'on n'en sait pas plus).
Comme le disque fait partie du dataset system et qu'il est en miroir, pas trop de stress. Mais pour être tranquille, je ferai quand même une sauvegarde de la config de FreeNAS, bah c'est pas grand chose et ça évite un peu de configuration en cas de réinstallation... ;-)

Si le disque est encore sous garantie, il est peut-être possible de le retourner sous garantie... à voir (selon les erreurs SMART et selon les constructeurs).

En pratique: s'il n'y a que ce problème de secteurs non lisibles, il faut que les tests SMART soient exécutés régulièrement sur le disque (des longs et des courts) (mais je suppose que c'est le cas?).
Et il faut surveiller les attributs SMART relatifs aux secteurs non lisibles et offline (#197 et #198). S'ils n'évoluent pas alors on peut être relativement tranquille. D'autant plus qu'il s'agit du dataset system (et qu'en plus il est en miroir).
Mais ça peut être aussi dépendant du contexte d'utilisation: si c'est personnel alors je dirai qu'on peut vivre avec et le jour où le disque lâche complètement, on le change. Si c'est professionnel et que la disponibilité du systèmes est critique alors on peut prévoir lors d'une prochaine session de maintenance de le remplacer...

Mais on en saura plus avec le résultat de la commande SMART.

Rosin0416 · Jul 1, 2021

Bonjour,
Merci bien pour toutes ces infos.
Alors voici le résultat de la commande :

Code:

root@freenas:~ # smartctl -a /dev/ada1
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Scorpio Blue Serial ATA
Device Model:     WDC WD5000BEVT-11ZAT0
Serial Number:    WD-WXNY08
LU WWN Device Id: 5 0014ee 2025dce0f
Firmware Version: 01.01A01
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Wed Jun 30 21:12:52 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                (13200) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 154) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       3100
  3 Spin_Up_Time            0x0027   154   147   021    Pre-fail  Always       -       3266
  4 Start_Stop_Count        0x0032   090   090   000    Old_age   Always       -       10492
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   042   042   000    Old_age   Always       -       42414
10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2109
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       728
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       1443525
194 Temperature_Celsius     0x0022   116   098   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       3
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       3729
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       53

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     41502         21025400
# 2  Extended offline    Completed: read failure       90%     41502         21025400
# 3  Short offline       Completed without error       00%     36383         -
# 4  Extended offline    Completed without error       00%     36279         -
# 5  Short offline       Completed without error       00%     36240         -
# 6  Short offline       Completed without error       00%     36096         -
# 7  Short offline       Completed without error       00%     35952         -
# 8  Short offline       Completed without error       00%     35809         -
# 9  Short offline       Completed without error       00%     35641         -
#10  Short offline       Completed without error       00%     35498         -
#11  Short offline       Completed without error       00%     35443         -
#12  Short offline       Completed without error       00%     35275         -
#13  Short offline       Completed without error       00%     35132         -
#14  Short offline       Completed without error       00%     34988         -
#15  Short offline       Completed without error       00%     34844         -
#16  Short offline       Completed without error       00%     34557         -
#17  Short offline       Completed without error       00%     34414         -
#18  Short offline       Completed without error       00%     34270         -
#19  Short offline       Completed without error       00%     34127         -
#20  Short offline       Completed without error       00%     33983         -
#21  Short offline       Completed without error       00%     33815         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@freenas:~ #

Pitfrr · Jul 1, 2021

Super...

Alors on a tout d'abord la liste des attributs SMART et voici ceux qui sont importants (à mes yeux, chacun à ses préférences...):
5 Reallocated_Sector_Ct avec RAW_VALUE à 0 indique le nombre de secteurs réalloués.
9 Power_On_Hours avec +42k heures... bon ça dit que le disque a déjà un peu tourné.
12 Power_Cycle_Count ça donne une idée sur le nombre d'allumage du disque (+12k)
193 Load_Cycle_Count pour les disques WD (notamment ce modèle blue) c'est un paramètre important car le disque est spécifié pour un certain nombre de LCC (j'ai plus les valeurs en tête, cela change selon la couleur du disque) mais là à plus de un million, on est bien au delà de ce qui est spécifié par WD. Le Load Cycle Count c'est le nombre de fois que la tête va se parquer dans le disque. Il y a un timer (qu'on peut configurer mais pas aussi facilement) qui permet de rallonger le temps ou carrément de le désactiver. Bien sûr le parquage des têtes n'est pas très bon car ça accélère le vieillissement (ça peut être utilise par contre pour protéger le disque en cas de choc mais sur un serveur, c'est peut intéressant... à l'opposé d'un portable par exemple.).
194 Temperature_Celsius il faut surveiller que la température ne dépasse pas 40°C pour les disques de manière constante, cela accélère le vieillissement également.
197 Current_Pending_Sector bon celui là on en a déjà parlé...
198 Offline_Uncorrectable et celui là c'est le nombre de secteur offline ou défectueux. Il est à 0 c'est plutôt bien.

Ensuite il y a les attributs:
1 Raw_Read_Error_Rate nombre d'erreurs de lecture. Ce paramètre est un peu difficile à interprêter. On peut le surveiller pour voir s'il augmente fortement au cours du temps ou pas.
196 Reallocated_Event_Count nombre de tentative de réallocation de secteurs. Je vois pas trop la différence avec #5... mais si ça augmente, c'est qu'il y a quelque chose. Ensuite, ça devrait augmenter avec #5 (peut-être plus rapidement que #5).
199 UDMA_CRC_Error_Count erreurs CRC, si ce nombre augmente il peut indiquer un câble défectueux.
200 Multi_Zone_Error_Rate couvre plusieurs types d'erreurs lors de l'écriture de données (et lecture?), difficile à interpréter mais on peut le surveiller, s'il évolue peut indiquer qu'il y a un problème.

Dans la partie résultat de tests SMART on a:

Code:

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     41502         21025400
# 2  Extended offline    Completed: read failure       90%     41502         21025400
# 3  Short offline       Completed without error       00%     36383         -
# 4  Extended offline    Completed without error       00%     36279         -

Le test étendu numéro 1 et 2 ont trouvé des erreurs au bloc numéro 21025400.
Comme il ne s'agit que d'un test en lecture, SMART ne sait pas encore si le secteur en question est défectueux ou pas. Cela sera confirmé lors de la prochaine tentative d'écriture à ce bloc (ce qui peut ne jamais arriver... mais on peut aussi forcer une écriture à ce bloc mais c'est un peu plus compliqué.).

Une remarque à ce niveau là: le disque n'a pas eu beaucoup de tests SMART effectués. C'est une bonne pratique d'effectuer un test long (ou étendu) par mois et un court par semaine. Là on voit des tests courts effectués à 36k heures puis un trou et ça reprend à 41k heures.
Et avant 36k heures, pas de tests longs...

Pour conclure:
- Je recommande de planifier les tests longs et courts régulièrement. Cela va permettre aussi de surveiller le disque. Si le LBA_of_first_error change ou pas, ça donnera déjà une indication. Et cela pour tous les disques du système bien sûr!
- Surveiller les attributs #197, #198 et #5. S'ils n'évoluent pas alors y'a pas forcément urgence à changer le disque je dirai (compte tenu également du fait qu'il est utilisé pour le dataset system et est en miroir).

Rosin0416 · Jul 2, 2021

Bonjour,

En ce qui concerne les tests SMART, normalement sont planifiés et pour les disques de données et pour les disques du "dataset system" :
_ un test court par semaine
_ un test long 3 fois par an
J'avais paramétré cela il y a plusieurs années.

Du coup il y a bien des différences de 144h (environ une semaine) entre les tests courts, en revanche je ne comprends le gap de +5000 heures.
C'est dommage qu'il n'y ait pas les date des tests.
En ce qui concerne leurs fréquences, merci pour pour l'info, car je n'ai jamais trouvé de recommandations à ce sujet.

Le Load Cycle Count c'est le nombre de fois que la tête va se parquer dans le disque. Il y a un timer (qu'on peut configurer mais pas aussi facilement) qui permet de rallonger le temps ou carrément de le désactiver.

J'ai 4 disques WD Red pour les données, savez vous comment on peut soit désactiver, soit augmenter ce timer ?
L'avez-vous fait ?

Du coup, pour le moment, je n'ai pas à m’inquiéter plus que cela si je comprends bien. Juste à rester vigilent, en particulier sur ce disque.

Etorix · Jul 2, 2021

Pas plus d'inquiétude que ça dans la mesure où le disque ne contient rien d'essentiel et a un jumeau en mirroir… mais je vérifierais soigneusement l'état du jumeau et, surtout, celui des disques du pool de données.
Si le problème est dû à l'âge, les autres disques vont probablement suivre.

Pitfrr · Jul 2, 2021

Rosin0416 said:
_ un test court par semaine
_ un test long 3 fois par an

Si c'est planifié de manière régulière c'est déjà une bonne chose.
Après, 3 fois par an ou plus, c'est un peu selon l'appréciation de chacun mais une bonne pratique est de faire des tests longs une fois par mois, grosso modo.
Perso, je trouve que 3 fois par an c'est trop peu mais c'est mieux que de ne pas les faire!
Il faut savoir que les tests courts durent quelques minutes et ne testent pas grand chose (quelques fonctionnalités du disque mais certainement pas les données (ou alors de manière très réduite)). Les tests longs quant à eux testent la surface du disque (en lecture seulement) et prennent plusieurs heures (selon la taille du disque). C'est transparent pour l'utilisateur (c'est à dire qu'on peut toujours utiliser le disque normalement) même si ça va le ralentir un peu quand même. C'est pour ça que c'est conseillé de les exécuter à des moments où le système n'est pas sollicité (genre la nuit par exemple).

Concernant le timer du LCC, pour les WD red, normalement il est déjà moins court que pour les autres (et les spécifications ne sont pas les même pour les RED que pour les BLUE par exemple).
Je te conseille dans un premier temps de surveiller ce compteur (pour chacun des disques, voir comment il augmente) et seulement si besoin ensuite de modifier le timer.
Pour modifier le timer, il y a un programme (WDIDLE3.EXE en ligne de commande) à utiliser pour modifier le timer d'un disque (à la fois, il faut le faire disque par disque).
Il y a un post à ce sujet qui explique plus en détail.
De plus, tu verras que ce post est un peu ancien et ce n'est pas très clair si cet outil fonctionne toujours pour des disques récents.

Tu peux aussi poster les données SMART de tes disques de données qu'on voit ce que ça donne (et aussi de l'autre disque de ton dataset system tant qu'on y est).

Rosin0416 · Jul 2, 2021

Re-,
ça marche.
Encore deux questions :
Peut-on voir le temps paramétré sur LCC des disques où bien il faut absolument passer par l'utilitaire ?
Peut-on modifier le timer sans que cela ait un impact sur les données ou bien il faudra que le disque soit réécrit après la manip ?

Pitfrr · Jul 2, 2021

On peut voir la configuration du timer avec WDIDLE3.EXE. On peut afficher le paramètre actuel et le modifier.
Le changement de ce paramètre n'a pas d'effet sur les données du disque.
Par contre de manière pratique, il faut le faire disque par disque (donc un seul disque connecté à la fois).
Le plus simple pour ça c'est d'utiliser une image de boot de type UBCD qui intègre déjà WDIDLE3.EXE.

Rosin0416 · Jul 7, 2021

Bonjour, me revoici.
J'ai pu ressortir les tests smart de tous mes autres disques .
_ Second disque du pool "dataset system" :

Code:

root@freenas:~ # smartctl -a /dev/ada0
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     FUJITSU MHX2300BT
Serial Number:    K205T8B29
LU WWN Device Id: 5 00000e 0428dcc44
Firmware Version: 0041000B
User Capacity:    300,069,052,416 bytes [300 GB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 3b
SATA Version is:  SATA 2.5, 1.5 Gb/s
Local Time is:    Sat Jul  3 08:13:59 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                ( 1660) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 191) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   046    Pre-fail  Always       -       182311
  2 Throughput_Performance  0x0005   100   100   030    Pre-fail  Offline      -       89194496
  3 Spin_Up_Time            0x0003   100   100   025    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       7942
  5 Reallocated_Sector_Ct   0x0033   100   100   024    Pre-fail  Always       -       0 (2000 0)
  7 Seek_Error_Rate         0x000f   100   100   047    Pre-fail  Always       -       1646
  8 Seek_Time_Performance   0x0005   100   100   019    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   036   036   000    Old_age   Always       -       32451
10 Spin_Retry_Count        0x0013   100   100   020    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       7537
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       251
193 Load_Cycle_Count        0x0032   082   082   000    Old_age   Always       -       363203
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       26 (Min/Max 12/49)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       139
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0 (0 6466)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000f   100   100   060    Pre-fail  Always       -       24325
203 Run_Out_Cancel          0x0002   100   100   000    Old_age   Always       -       5931326243900
240 Head_Flying_Hours       0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 1
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 4857 hours (202 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 41 1b b0 86 83 40  Error: ICRC, ABRT at LBA = 0x008386b0 = 8619696

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 50 00 8a 83 40 00      03:31:55.450  READ FPDMA QUEUED
  60 00 48 00 89 83 40 00      03:31:55.450  READ FPDMA QUEUED
  60 00 40 00 88 83 40 00      03:31:55.450  READ FPDMA QUEUED
  60 00 38 00 87 83 40 00      03:31:55.450  READ FPDMA QUEUED
  60 00 30 00 86 83 40 00      03:31:55.450  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     17918         -
# 2  Short offline       Completed without error       00%       655         -
# 3  Short offline       Completed without error       00%       653         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Rosin0416 · Jul 7, 2021

_ Disque 1 du pool de données :

Code:

root@freenas:~ # smartctl -a /dev/ada2
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68EUZN0
Serial Number:    WD-WCC4N0RSC
LU WWN Device Id: 5 0014ee 20d3bf7d8
Firmware Version: 82.00A82
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  3 08:14:41 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (39060) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 392) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   175   171   021    Pre-fail  Always       -       6241
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       117
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   059   059   000    Old_age   Always       -       30139
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       95
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       18
193 Load_Cycle_Count        0x0032   187   187   000    Old_age   Always       -       39715
194 Temperature_Celsius     0x0022   121   106   000    Old_age   Always       -       29
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     25254         -
# 2  Extended offline    Completed without error       00%     25250         -
# 3  Short offline       Completed without error       00%     25110         -
# 4  Short offline       Completed without error       00%     24966         -
# 5  Short offline       Completed without error       00%     24822         -
# 6  Short offline       Completed without error       00%     24679         -
# 7  Short offline       Completed without error       00%     24511         -
# 8  Short offline       Completed without error       00%     24367         -
# 9  Short offline       Completed without error       00%     24144         -
#10  Short offline       Completed without error       00%     24000         -
#11  Short offline       Completed without error       00%     23856         -
#12  Short offline       Completed without error       00%     23712         -
#13  Short offline       Completed without error       00%     23568         -
#14  Short offline       Completed without error       00%     23425         -
#15  Short offline       Completed without error       00%     23281         -
#16  Short offline       Completed without error       00%     23137         -
#17  Short offline       Completed without error       00%     22993         -
#18  Short offline       Completed without error       00%     22849         -
#19  Short offline       Completed without error       00%     22681         -
#20  Extended offline    Completed without error       00%     22677         -
#21  Short offline       Completed without error       00%     22537         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Rosin0416 · Jul 7, 2021

_ Disque 2 du pool de données :

Code:

root@freenas:~ # smartctl -a /dev/ada3
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68EUZN0
Serial Number:    WD-WCC4N5DVH
LU WWN Device Id: 5 0014ee 20d954c65
Firmware Version: 82.00A82
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  3 08:14:48 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (38760) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 389) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   173   171   021    Pre-fail  Always       -       6325
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       62
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   060   060   000    Old_age   Always       -       29829
10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       55
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       12
193 Load_Cycle_Count        0x0032   187   187   000    Old_age   Always       -       39600
194 Temperature_Celsius     0x0022   122   108   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     24944         -
# 2  Extended offline    Completed without error       00%     24940         -
# 3  Short offline       Completed without error       00%     24800         -
# 4  Short offline       Completed without error       00%     24656         -
# 5  Short offline       Completed without error       00%     24512         -
# 6  Short offline       Completed without error       00%     24368         -
# 7  Short offline       Completed without error       00%     24201         -
# 8  Short offline       Completed without error       00%     24057         -
# 9  Short offline       Completed without error       00%     23834         -
#10  Short offline       Completed without error       00%     23690         -
#11  Short offline       Completed without error       00%     23546         -
#12  Short offline       Completed without error       00%     23402         -
#13  Short offline       Completed without error       00%     23258         -
#14  Short offline       Completed without error       00%     23115         -
#15  Short offline       Completed without error       00%     22971         -
#16  Short offline       Completed without error       00%     22827         -
#17  Short offline       Completed without error       00%     22683         -
#18  Short offline       Completed without error       00%     22539         -
#19  Short offline       Completed without error       00%     22371         -
#20  Extended offline    Completed without error       00%     22367         -
#21  Short offline       Completed without error       00%     22227         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Rosin0416 · Jul 7, 2021

_ Disque 3 du pool de données :

Code:

root@freenas:~ # smartctl -a /dev/ada4
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68EUZN0
Serial Number:    WD-WCC4N4JPZ
LU WWN Device Id: 5 0014ee 2b75faadc
Firmware Version: 82.00A82
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  3 08:14:53 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (39720) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 399) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   181   179   021    Pre-fail  Always       -       5908
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       160
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   059   059   000    Old_age   Always       -       30163
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       112
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       24
193 Load_Cycle_Count        0x0032   187   187   000    Old_age   Always       -       39880
194 Temperature_Celsius     0x0022   122   106   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     25278         -
# 2  Extended offline    Completed without error       00%     25274         -
# 3  Short offline       Completed without error       00%     25134         -
# 4  Short offline       Completed without error       00%     24990         -
# 5  Short offline       Completed without error       00%     24846         -
# 6  Short offline       Completed without error       00%     24702         -
# 7  Short offline       Completed without error       00%     24534         -
# 8  Short offline       Completed without error       00%     24391         -
# 9  Short offline       Completed without error       00%     24168         -
#10  Short offline       Completed without error       00%     24024         -
#11  Short offline       Completed without error       00%     23880         -
#12  Short offline       Completed without error       00%     23736         -
#13  Short offline       Completed without error       00%     23592         -
#14  Short offline       Completed without error       00%     23448         -
#15  Short offline       Completed without error       00%     23305         -
#16  Short offline       Completed without error       00%     23161         -
#17  Short offline       Completed without error       00%     23017         -
#18  Short offline       Completed without error       00%     22873         -
#19  Short offline       Completed without error       00%     22705         -
#20  Extended offline    Completed without error       00%     22701         -
#21  Short offline       Completed without error       00%     22561         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Rosin0416 · Jul 7, 2021

_ Disque 4 du pool de données :

Code:

root@freenas:~ # smartctl -a /dev/ada5
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p31 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68EUZN0
Serial Number:    WD-WCC4N7LS2
LU WWN Device Id: 5 0014ee 2b67b88c7
Firmware Version: 82.00A82
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  3 08:14:59 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (39720) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 399) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   177   021    Pre-fail  Always       -       6050
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       121
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   059   059   000    Old_age   Always       -       30145
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       95
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       18
193 Load_Cycle_Count        0x0032   187   187   000    Old_age   Always       -       39727
194 Temperature_Celsius     0x0022   121   104   000    Old_age   Always       -       29
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     25260         -
# 2  Extended offline    Completed without error       00%     25256         -
# 3  Short offline       Completed without error       00%     25116         -
# 4  Short offline       Completed without error       00%     24972         -
# 5  Short offline       Completed without error       00%     24828         -
# 6  Short offline       Completed without error       00%     24685         -
# 7  Short offline       Completed without error       00%     24517         -
# 8  Short offline       Completed without error       00%     24373         -
# 9  Short offline       Completed without error       00%     24150         -
#10  Short offline       Completed without error       00%     24006         -
#11  Short offline       Completed without error       00%     23862         -
#12  Short offline       Completed without error       00%     23718         -
#13  Short offline       Completed without error       00%     23575         -
#14  Short offline       Completed without error       00%     23431         -
#15  Short offline       Completed without error       00%     23287         -
#16  Short offline       Completed without error       00%     23143         -
#17  Short offline       Completed without error       00%     22999         -
#18  Short offline       Completed without error       00%     22855         -
#19  Short offline       Completed without error       00%     22687         -
#20  Extended offline    Completed without error       00%     22684         -
#21  Short offline       Completed without error       00%     22544         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Rosin0416 · Jul 7, 2021

J'ai remarqué un élément étrange.
Mes disques de données indiquent qu'ils ont fonctionné environ 30000 heures, ce qui représente 3 ans et 5 mois. Or j'ai mis en fonctionnement le serveur en octobre 2016, ce qui fait 4 ans et 9 mois.
Je peux enlever 5 semaines par an qui correspond approximativement au temps durant lequel j'arrête le serveur pour les congés. Ce qui nous donne environ 5 mois en moins ; et donc 4 ans et 4 mois. Il y a quand même une différence d'un an.
Voyez-vous où est le problème ?
En vous remerciant

Pitfrr · Jul 7, 2021

Bonjour,

Super pour les infos SMART!
Bon rien d'alarmant à première vue....

On commence par ada0 (boot):
Il a eu une erreur ICRC, ABRT vers 5k heures... ça s'est pas reproduit, probablement un faux contact dans le cable, rien de plus.
Par contre, il n'a pas vu beaucoup de tests SMART (longs et courts)... Faudra prévoir de les planifier aussi sur les disques systèmes.

Ensuite pour les disques de données (ada2, ada3, ada4 et ada5):
Ce sont tous des WD Red 3To avec en gros 30k heures au compteur et un compteur LCC à 39k. C'est plutôt bien, je dirai que ça ne vaut pas le coup de s'embêter avec WDIDLE3.EXE à ce niveau là. On est à à peu près 13k par an pour le compteur LCC, donc y'a de la marge.
Les tests SMART (longs et courts) sont exécutés régulièrement, donc ça va (on peut discuter de la fréquence, mais on l'a déjà fait et l'important c'est que ce soit fait régulièrement déjà).
Et puis il y a ada4 qui a l'attribut 199 (UDMA_CRC_Error_Count) à 1 (contrairement aux autres) mais là aussi, rien d'alarmant, cet attribut n'étant pas critique, c'est probablement du à un faux contact au niveau des câbles. Juste s'assurer qu'il n'augmente pas trop éventuellement.

Concernant le temps de fonctionnement, c'est vrai que ça fait beaucoup un an de différence... mais je ne sais pas quelle est la précision de cet attribut... En plus, on se rend compte que souvent on pense qu'on a laissé un système allumé tout le temps mais il y a souvent quelques périodes de maintenance où le système est éteint qu'on ne prend pas en compte nécessairement.
Je ne m'inquiéterai pas trop. Ce qui est important c'est aussi de voir que tous les disques ont des valeurs cohérentes (ils n'ont peut-être pas la même valeur mais elle augmente de la même manière, ce qui est cohérent). Là en l'occurrence on dirait que tous les disques sont partis avec la même valeur (probablement 0 car neufs) et 3 ou 4 ans plus tard ils sont tous au même point.

Bref, pas de mauvaises surprises, ce qui est plutôt bien.

Pitfrr · Jul 7, 2021

Au niveau des disques, un détail positif que je n'ai pas mentionné mais qui a son importance: la température des disques.
Je ne sais pas si c'est voulu mais elle se situe aux alentours de 30°C, c'est très bien puisque l'objectif est de réussir à la maintenir en dessous de 40°C (de manière générale) pour éviter un vieillissement accélérer.

Rosin0416 · Jul 8, 2021

Bonjour,
Plutôt des bonnes nouvelles alors. Merci pour cette analyse. Je vais regarder du coup ada0, c'est bizarre qu'il n'y ait pas de tests.
Pour précision ; ada0 est le second disque du pool en mirroir "system dataset". Le boot s'effectue à partir d'une clé usb que je n'ai pas mentionné ici.

Pour la température, je pense avoir une ventilation adéquat. Je ne sollicite pas non plus les disques. Cette valeur est une valeur "ponctuelle" à l'instant "t" ou bien c'est la plus haute valeur enregistrée ? Car lors de forte chaleur, l'année dernière j'ai quand même eu des alertes courriel que la température avait dépassée les 41°C.

En plus, on se rend compte que souvent on pense qu'on a laissé un système allumé tout le temps mais il y a souvent quelques périodes de maintenance où le système est éteint qu'on ne prend pas en compte nécessairement.

Oui je suis d'accord, c'est pour cela que j'ai enlevé les période de congés, mais la différence est encore bien trop importante. c'est étonnant.
Je pourrais encore enlever 2 ou 3 mois où j'aurais pu l'éteindre durant cette période, et la encore...

Etorix · Jul 8, 2021

Rosin0416 said:
Pour la température, je pense avoir une ventilation adéquat. Je ne sollicite pas non plus les disques. Cette valeur est une valeur "ponctuelle" à l'instant "t" ou bien c'est la plus haute valeur enregistrée ? Car lors de forte chaleur, l'année dernière j'ai quand même eu des alertes courriel que la température avait dépassée les 41°C.

C'est la valeur actuelle. Le maximum atteint lors de l'activité du disque est typiquement présenté ainsi (ada0):

Code:

194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       26 (Min/Max 12/49)

Visiblement, les EDRX ne le mémorisent pas.

Pitfrr · Jul 9, 2021

Concernant la température, on peut aussi avoir un historique (j'ai un doute si c'est possible sur tous les disque... je pense) avec la commande
smartclt -x /dev/ada2

Y'a beaucoup plus d'information mais à la fin on trouve quelque chose comme:

Code:

[...]
SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:      0/65 Celsius
Min/Max Temperature Limit:           -40/70 Celsius
Temperature History Size (Index):    128 (90)

Index    Estimated Time   Temperature Celsius
  91    2021-07-09 10:22    36  *****************
 ...    ..( 82 skipped).    ..  *****************
  46    2021-07-09 11:45    36  *****************
  47    2021-07-09 11:46    37  ******************
  48    2021-07-09 11:47    36  *****************
 ...    ..(  7 skipped).    ..  *****************
  56    2021-07-09 11:55    36  *****************
  57    2021-07-09 11:56    37  ******************
  58    2021-07-09 11:57    37  ******************
  59    2021-07-09 11:58    37  ******************
  60    2021-07-09 11:59    36  *****************
  61    2021-07-09 12:00    37  ******************
  62    2021-07-09 12:01    37  ******************
  63    2021-07-09 12:02    36  *****************
  64    2021-07-09 12:03    37  ******************
 ...    ..( 24 skipped).    ..  ******************
  89    2021-07-09 12:28    37  ******************
  90    2021-07-09 12:29    36  *****************
[...]

Concernant les pics de températures, j'ai le même problème, c'est pas toujours évident de maitriser cela. Je me dis que tant que ça reste ponctuel ou sur une courte durée, ça va (on n'est pas non plus à des températures trop fortes comme 50 ou 60°).

Important Announcement for the TrueNAS Community.

Problème disque dur

Patron

Wizard

Patron

Wizard

Patron

Wizard

Wizard

Patron

Wizard

Patron

Patron

Patron

Patron

Patron

Patron

Wizard

Wizard

Patron

Wizard

Wizard

Important Announcement for the TrueNAS Community.

Related topics on forums.truenas.com for thread: "Problème disque dur"

Similar threads