Problème S.M.A.R.T. test

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Bonjour,

J'ai acheté des disques d'occasion (WD red 4to) et je pense avoir un problème sur l'un d'entre eux :

smart disk.PNG


Comme vous pouvez le voir, les valeurs des attributs critiques sont à 0 mais j'ai pourtant des erreurs "read failure" sur les longs tests SMART effectués...
J'ai essayé cette commande entre les tests 3 et 2:
dd if=/dev/zero of=/dev/ada1 bs=512 count=1 seek=3056693328
mais j'ai eu le même bloc en erreur ensuite.
Mais un bloc différent avec un autre type de test SMART...
Et j'ai l'impression que l'attribut 200 a diminué...
Je ne comprend plus grand chose et avant de faire des erreurs avec des commandes que je ne maitrise pas, je préfère venir demander de l'aide ici :).
Je comptais faire un test badblocks (je suis ce tuto : https://www.youtube.com/watch?v=x_mWTonqIiA), puis-je quand même le faire sur ce disque ? Est-il vraiment inutilisable ?

D'avance merci pour votre aide,

Mate
 

sretalla

Powered by Neutrality
Moderator
Joined
Jan 1, 2016
Messages
9,702

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Merci pour ta réponse mais j'avais vérifié avant d'acheter, c'est bie le EFRX :
Sans titre.png
 

sretalla

Powered by Neutrality
Moderator
Joined
Jan 1, 2016
Messages
9,702
Oui, c'est le bon.

Peut-étre les fils SATA? le datas SMART sont bons.
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Peut-étre les fils SATA?

Je viens de checker, le disque incriminé avait en effet sa fiche de donnée SATA qui n'était pas tout à fait enfoncée, ça pourrait être ça ? J'ai tout débranché, soufflé et rebrancher pour être sur. Je viens de relancer un test SMART long, verdict à 22h ^^

le datas SMART sont bons.
C'est ce que je me disais aussi mais ça me rassure que tu me le confirmes.

Je suis tombé là-dessus :

Et en suivant toutes les étapes, mon problème a bien l'air d'un problème de communication et non un problème physique sur le disque, je croise les doigts...
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,523
Oui c'est agaçant ces erreurs de lecture... :smile:

Je pense que dans tous les cas, lancer un badblocks (destructif, c'est à dire en lecture/écriture) sur le disque te permettra de connaitre un peu mieux son état de santé. Notamment pour confirmer les erreurs puisque les tests SMART ne sont que en lecture.

Et ensuite, lancer des test SMART régulièrement (des longs) et vérifier si le bloc en question reste le même ou si ça change.
Dans tous les cas, si ce disque ne présente pas d'autres problème et que tu l'utilises, je garderai un oeil dessus...
J'ai eu un disque avec des symptomes identiques: données SMART correctes mais des erreurs en lecture lors des tests SMART. Le test badblocks a également sorti des erreurs... donc j'ai viré le disque.
Il faut également savoir que les tests SMART donnent une indication sur la santé du disque mais ils ne "voient" pas forcément tout. En gros, c'est pas parque les attributs SMART sont bons que le disque n'a pas forcément de problème (et comme je le dis précédemment, ils ne font qu'un test de lecture).

Dans ton cas, le bloc d'erreur de lecture a changé (3056693328 puis 3068424656) entre deux tests. Donc soit c'est un problème de cable (*) et c'est réglé, soit faut surveiller les blocs et ça peut indiquer que la surface du disque est peut être détériorée (et donc normalement, les attributs #197/198 ne devraient pas tarder à augmenter à un moment quand tu vas écrire des données) et le mieux, si le disque n'est pas (encore) utilisé c'est de lancer un badblocks destructif.


(*): Je ne suis pas convaincu que cela puisse venir d'un problème de cable notamment pour les tests SMART (long/extended): en effet, les tests sont réalisés par le disque lui-même et non par l'hôte. Donc cela ne passe pas par le cable...
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Salut Pitfrr !

Merci pour la réponse !
Le disque n'est de fait pas encore utilisé, il n'a aucune données dessus et a été, a priori, formaté en NTFS avant la vente.
Du coup, je verrai bien les résultats ce soir mais lancerai quand même d'office un Badblocks destructif une fois le test SMART fini afin d'y voir un peu plus clair ;)
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Résultats après le long SMART d'hier et Badblocks en cours:
- Fail à 10% sur le même bloc, comme tous les autres long test
- L'attribut 200 a diminué
- Le Raw_Read_Error_Rate est maintenant à 4, dû au test badblocks car il était toujours à 0 juste après le smart test
- Un Coveyance test a été fait automatiquement entre temps et détecte un bloc encore différent :

Code:
root@freenas[~]# smartctl -a /dev/ada1
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.3-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E2YAAXY0
LU WWN Device Id: 5 0014ee 261b90fd9
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Jul 13 12:22:44 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 113) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                (54300) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 543) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       4
  3 Spin_Up_Time            0x0027   187   175   021    Pre-fail  Always       -       7633
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12965
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   046   046   000    Old_age   Always       -       39757
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       145
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       109
193 Load_Cycle_Count        0x0032   156   156   000    Old_age   Always       -       132115
194 Temperature_Celsius     0x0022   116   109   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       6

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       10%     39742         3056693328
# 2  Conveyance offline  Completed: read failure       50%     39724         3062692088
# 3  Conveyance offline  Completed: read failure       40%     39701         3068424656
# 4  Extended offline    Completed: read failure       10%     39692         3056693328
# 5  Extended offline    Completed: read failure       10%     39680         3056693328
# 6  Extended offline    Completed: read failure       10%     39671         3056693328
# 7  Short offline       Completed without error       00%     39662         -
# 8  Extended offline    Completed: read failure       10%     39644         3056693328
# 9  Short offline       Completed without error       00%     39635         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing


Et pour le test Badblocks, j'ai visiblement le disque incriminé qui est plus lent que l'autre (mais pas d'erreurs pour le moment) :

badblocks avancement.PNG
 

Attachments

  • badblocks avancement.PNG
    badblocks avancement.PNG
    13.2 KB · Views: 175

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Bon, décidément, ces disques me prennent la tête...

Voici un screen du test Badblock terminé après 70-80h :
Badbloks results.PNG


Il n'y a pas de résultats clairs mais j'ai surveillé tout au long du test (sauf à la fin car le test s'est fini cette nuit) et j'avais toujours (0/0/0 errors). Que puis-je en conclure ?

Voici les données SMART des 2 disques après test Badblocks :
Code:
Warning: settings changed through the CLI are not written to
the configuration database and will be reset on reboot.

root@freenas[~]# smartctl -a /dev/ada1
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.3-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E2YAAXY0
LU WWN Device Id: 5 0014ee 261b90fd9
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Jul 16 10:56:38 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (54300) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 543) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       16
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       8041
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12967
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   046   046   000    Old_age   Always       -       39827
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       147
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       111
193 Load_Cycle_Count        0x0032   156   156   000    Old_age   Always       -       132115
194 Temperature_Celsius     0x0022   120   109   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       6

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       10%     39742         3056693328
# 2  Conveyance offline  Completed: read failure       50%     39724         3062692088
# 3  Conveyance offline  Completed: read failure       40%     39701         3068424656
# 4  Extended offline    Completed: read failure       10%     39692         3056693328
# 5  Extended offline    Completed: read failure       10%     39680         3056693328
# 6  Extended offline    Completed: read failure       10%     39671         3056693328
# 7  Short offline       Completed without error       00%     39662         -
# 8  Extended offline    Completed: read failure       10%     39644         3056693328
# 9  Short offline       Completed without error       00%     39635         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@freenas[~]# smartctl -a /dev/ada2
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.3-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E6YC90VE
LU WWN Device Id: 5 0014ee 2b88e6fed
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Jul 16 10:57:23 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (52080) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 521) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       46
  3 Spin_Up_Time            0x0027   177   173   021    Pre-fail  Always       -       8125
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12595
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   058   058   000    Old_age   Always       -       30749
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       102
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       79
193 Load_Cycle_Count        0x0032   166   166   000    Old_age   Always       -       103148
194 Temperature_Celsius     0x0022   123   109   000    Old_age   Always       -       29
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       14

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     30594         -
# 2  Short offline       Completed without error       00%     30584         -
# 3  Extended offline    Aborted by host               90%     30569         -
# 4  Extended offline    Completed: read failure       10%     30566         3517011296
# 5  Short offline       Completed without error       00%     30557         -
# 6  Short offline       Completed without error       00%     17744         -
1 of 1 failed self-tests are outdated by newer successful extended offline self-test # 1

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing


J'ai relancé un Long SMART test, résultats à 20h
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,523
Alors si badblocks reste à 0/0/0 c'est plutôt bon signe...
Le premier disque (###AXY0) est, je trouve, agaçant car il ne termine pas les tests SMART longs... et c'est jamais le même bloc!
Faudra voir apès badblock ce que dit le test SMART long...
Le deuxième disque (###90VE) a eu un problème de lecture sur un bloc mais cela ne s'est pas reproduit ensuite, donc c'est mieux ça...

Ensuite pour les deux disques l'attribut #200 (Multi_Zone_Error_Rate) n'est pas à 0... ce qui est chiffonnant! (alors que les autres attributs sont bons)
D'après plusieurs sites ( et ), cet attribut n'est pas considéré comme critique mais... ça n'empêche pas de garder un oeil dessus. Comme précisé dans le deuxième lien, je testerai avec l'outil de WD pour voir ce qu'il dit...

Comme il s'agit de disques d'occas', on ne compte plus sur la garantie... sur les 4 disques, si 2 sont suspects, à toi de voir comment tu veux le gérer...

Je vois plusieurs options:
- Utilisation des 4 disques dans un volume RAIDz2 (avec 2 disques de parité, ça tombe bien car justement 2 disques sont suspects... Mais alors faut avoir des sauvegardes fiables et surveiller les disques (SMART et scrub). Et au moindre soucis, ne pas hésiter à changer un disque car sinon c'est trop risqué.
C'est ce que j'ai fait sur mon serveur de backup (je ne l'aurai pas fait sur mon serveur de production par exemple). Bon au final, j'ai du changer les disques... j'avais 3 disque morts (je pensais 2) sur 8.
- Utilisation de 3 disques sur les 4. Donc ça veut dire trouver un quatrième disque pour faire un volume RAIDz2 et avoir un disque suspect dans le volume et conserver le deuxième disque suspect pour un backup pourquoi pas (tout en ayant un risque avec ce backup).
- La jouer ceinture et bretelles: ne garder que 2 disques sur les 4, trouver deux disques supplémentaires pour faire un volume RAIDz2. Eventuellement, garder les deux disques suspects comme backup en miroir.
C'est l'option que je prendrai pour un serveur en production.

Bref, toutes les combinaisons sont possibles faut juste voir quel niveau de risque on est prêt à accepter pour les données.
Et on verra les résultats SMART de ce soir... :smile:
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Le premier disque (###AXY0) est, je trouve, agaçant
Je suis entièrement d'accord avec toi ! ^^

Pour les différentes options, bah en fait je n'ai que ces 2 disques... Tu te souviens peut-être que le vendeur en vendaient 4 mais je n'en ai pris que 2 car 4 était un nombre un peu "bâtard"^^. Je comptais partir sur un miroir 2x4to à upgrade dans le futur ;).

Oui, j'ai hâte d'avoir le résultat smart ce soir mais le test Badblocks me rassure déjà pas mal et je pense que je vais quand même les utiliser en étant conscient des risques, en surveillant bien leur état de santé et en jouant sur l'ubiquité des données critiques. Je ne peux pas me permettre d'acheter d'autres disques pour le moment (chômage, qui n'est pas encore tombé en plus...).

Je vais aussi checker tes liens concernant l'attribut 200 qui m'embete aussi à jouer au yo-yo... ;)
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,523
Ahh oui, je pensais que tu avais pris les 4 disques... :-(

Ouuuuille... alors en effet, pas top cool ça.
Donc si tu utilises ces disques, assure toi d'avoir une sauvegarde fiable! Car globalement la question n'est pas "si" ils vont te claquer dans les doigts mais "quand"... :tongue:
(je dramatise peut-être un peu mais p'tet pas tant que ça... et, je pense, vaut mieux partir avec cet état d'esprit pour anticiper.)

Et vérifie que les tests SMART sont bien planifiés et peut être faire des scrubs un peu plus souvent que ce qui est par défaut (35 jours je crois... je ferai toutes les deux semaines et je vérifierai les résultats (il devait y'avoir moyen de scripter ça pour que ça te remonte des alertes par mail), si y'a des erreurs de CRC alors je m'inquièterai... ok, ça peut venir des câbles aussi mais bon dans le doute...).

Et bon courage pour trouver du boulot aussi!
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Et voici les données SMART après badblocks + test SMART long :
Code:
root@freenas[~]# smartctl -a /dev/ada1

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E2YAAXY0
LU WWN Device Id: 5 0014ee 261b90fd9
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Jul 17 10:40:52 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (54300) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 543) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       16
  3 Spin_Up_Time            0x0027   180   175   021    Pre-fail  Always       -       7966
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12968
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   046   046   000    Old_age   Always       -       39850
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       148
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       112
193 Load_Cycle_Count        0x0032   156   156   000    Old_age   Always       -       132115
194 Temperature_Celsius     0x0022   121   109   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       4

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     39837         -
# 2  Extended offline    Completed: read failure       10%     39742         3056693328
# 3  Conveyance offline  Completed: read failure       50%     39724         3062692088
# 4  Conveyance offline  Completed: read failure       40%     39701         3068424656
# 5  Extended offline    Completed: read failure       10%     39692         3056693328
# 6  Extended offline    Completed: read failure       10%     39680         3056693328
# 7  Extended offline    Completed: read failure       10%     39671         3056693328
# 8  Short offline       Completed without error       00%     39662         -
# 9  Extended offline    Completed: read failure       10%     39644         3056693328
#10  Short offline       Completed without error       00%     39635         -
7 of 7 failed self-tests are outdated by newer successful extended offline self-test # 1

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@freenas[~]# smartctl -a /dev/ada2
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.3-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E6YC90VE
LU WWN Device Id: 5 0014ee 2b88e6fed
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Jul 17 10:41:37 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (52080) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 521) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       46
  3 Spin_Up_Time            0x0027   179   173   021    Pre-fail  Always       -       8050
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12596
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   058   058   000    Old_age   Always       -       30773
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       103
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       80
193 Load_Cycle_Count        0x0032   166   166   000    Old_age   Always       -       103148
194 Temperature_Celsius     0x0022   123   109   000    Old_age   Always       -       29
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       12

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     30758         -
# 2  Extended offline    Completed without error       00%     30594         -
# 3  Short offline       Completed without error       00%     30584         -
# 4  Extended offline    Aborted by host               90%     30569         -
# 5  Extended offline    Completed: read failure       10%     30566         3517011296
# 6  Short offline       Completed without error       00%     30557         -
# 7  Short offline       Completed without error       00%     17744         -
1 of 1 failed self-tests are outdated by newer successful extended offline self-test # 1

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing


Donc le test long est (enfin!) passé sans erreur sur les 2 disques (surtout ada1 qui posait problème), mais les attributs 1 qui ont augmentés alors qu'ils étaient à 0...

J'ai regardé pour le logiciel de test WD mais ça ne fonctionne que sur Windows et j'avoue que j'ai un peu la flemme de déménager les disques dans ma tour, surtout que je n'y ai pas la place et pas sur d'avoir tous les câbles d'alim nécessaires...
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,523
Ah ben c'est plutôt un bon résultat ça!
Ca rassure déjà un peu plus.

L'attribut #200 est du coup un peu haut et ça mérite de surveiller tout cela étroitement.
Comme je disais: tests SMART longs réguliers (et scrubs). Vérifier les attributs SMART mais également les résultats du scrub pour être sûr qu'il n'y a pas des erreurs de checksum.

j'avoue que j'ai un peu la flemme de déménager les disques
:-D
Oui, je me doute bien... Je dis pas que je fais mieux mais en rappelant l'adage "fait ce que je dis et pas ce que je fais", après c'est aussi une question de regagner confiance dans des disques où on va y stocker ses données... et ça n'a pas de prix (enfin ça dépend de ses données!).
 

Matehias

Dabbler
Joined
Jun 20, 2020
Messages
31
Ça y est c'est lancé et ça tourne plutôt pas mal, même si j'ai encore beaucoup de choses à configurer (plugins, réseau, https, ssl, toutes ces joyeuses choses) ! :D

Pour le moment, rien ne bouge, les données SMART sont toujours les mêmes et les tests passent :) .
J'ai planifié un test SMART court journalier et un test long hebdomadaire sur tous les disques (boot compris), ainsi qu'un scrub toutes les 2 semaines sur le pool, n'est-ce pas trop ? Je ne risque pas "d'user" mes disques plus rapidement avec tous ces tests ? Et est-ce qu'il y a d'autres check à faire ? Par exemple, le smart test "conveyance", quelle différence par rapport aux 2 autres ?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,523
Bonne config! :smile:

n'est-ce pas trop ?
La question est pertinente mais il faut voir selon le contexte.
En effet, un test SMART long par semaine et un scrub toutes les 2 semaines, c'est un peu excessif je dirai.

Toutefois il ne faut pas perdre de vu ton contexte: tu as deux disques dont tu n'es pas sûr à 100%.
Donc vaut mieux être prévenu au plus tôt en cas de problème que l'inverse.

Bien entendu, réaliser des tests de la sorte rajoute un stress aux disques également, mais pour la bonne cause.

J'aurai tendance à dire: tu vas voir avec le temps ce que ça donne. Si tu pars comme ça pour deux ou trois mois déjà ça te permettra de voir comment réagissent les disques. Par la suite tu verras si il faut espacer les tests/scrub.

Et est-ce qu'il y a d'autres check à faire ?
Je surveillerai la température des disques pour qu'elle ne dépasse pas 40°C mais sinon ça me semble pas mal.
La différence entre "conveyance", "long" et "short", wikipedia donne quelques pistes dans la section "self tests" mais pas beaucoup de détails sur le type de tests.... De manière générale, si tu fais des tests "short" et "long" t'es tranquille.


Par contre, je me répète, pense au backup.... :smile:
 
Top