Critical Smart Error

Status
Not open for further replies.

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hallo Zusammen,

nachdem mein Freenas nun endlich ein par Tage läuft habe ich heute Nacht eine Email vom system bekommen die da heißt:

Code:
The volume LPS state is ONLINE: One or more devices has experienced an error resulting in data corruption. Applications may be affected.


Ich hab mich sofort auf das System geschaltet weil ich natürlich nicht möchte das hier irgendetwas defekt geht. Leider schaffe ich es nicht einen Fehler aufzuspüren denn schaue ich mir den Speicher an:
screenshot.1.jpg

Ist alles prima.

Nur zum Verständnis. Muss ich jetzt selber auf Fehlersuche gehen bzw. Tests durchführen? Gibt es hierzu eine Dokumentation?
Einen automatischen Smartest habe ich unter den Aufgaben angelegt. Wo sehe ich denn die jeweiligen Ergebnisse?
screenshot.2.jpg
screenshot.3.jpg

Könnt ihr mir bitte helfen ich bin gerade sehr verunsichert was da passiert.

Viele Grüße

S
 

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hi,

hab gerade noch was in einer anderen Email gefunden (Daily Run Output)

Code:
Checking status of zfs pools:

NAME  SIZE  ALLOC  FREE  EXPANDSZ  FRAG  CAP  DEDUP  HEALTH  ALTROOT

LPS  10.9T  5.28T  5.59T  -  24%  48%  1.00x  ONLINE  /mnt

freenas-boot  29.5G  1.44G  28.1G  -  -  4%  1.00x  ONLINE  -


  pool: LPS

 state: ONLINE

status: One or more devices has experienced an error resulting in data

  corruption.  Applications may be affected.

action: Restore the file in question if possible.  Otherwise restore the

  entire pool from backup.

  see: http://illumos.org/msg/ZFS-8000-8A

  scan: scrub in progress since Sun Sep 17 00:00:01 2017

  3.87T scanned out of 5.28T at 374M/s, 1h5m to go

  0 repaired, 73.35% done

config:


  NAME  STATE  READ WRITE CKSUM

  LPS  ONLINE  0  0  1

	raidz1-0   ONLINE  0  0  2

    gptid/5a988f11-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5b607492-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5c324587-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5cf71382-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0


errors: 1 data errors, use '-v' for a list


Local system status:

 3:01AM  up 1 day, 11:11, 0 users, load averages: 0.68, 0.48, 0.38


-- End of daily output --
 

farmerpling2

Patron
Joined
Mar 20, 2017
Messages
224
Do:

smartctl -x /dev/adax

Replace x with drive number. Use glabel status to figure out which Unix drive nomenclature is having the problem. Post the output to let us see what smart is thinking.


[root@nas]# glabel status
Name Status Components
gptid/2806b657-048d-11e7-b6f6-d8cb8a9edb89 N/A ada0p2
gptid/f8be2dcd-9372-11e7-8f10-d8cb8a9edb89 N/A ada2p2
gptid/6c190144-95c4-11e7-8738-d8cb8a9edb89 N/A ada3p2
gptid/379cff72-942e-11e7-8f10-d8cb8a9edb89 N/A ada5p2
gptid/80ad21b4-9a6e-11e7-959a-d8cb8a9edb89 N/A ada4p2


Also execute the command and post its output:

zpool status -xv
 
Last edited:

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hi,

thanks a lot. Here are the output Files

S
 

Attachments

  • ada0.txt
    11.8 KB · Views: 273
  • ada1.txt
    11.4 KB · Views: 246
  • ada2.txt
    11.2 KB · Views: 250
  • ada3.txt
    11.5 KB · Views: 296
  • zpool.txt
    1.1 KB · Views: 232

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Aus zpool.txt:
Code:
  scan: scrub in progress since Sun Sep 17 11:30:20 2017
  1.32T scanned out of 5.28T at 369M/s, 3h7m to go
  0 repaired, 24.95% done

Warte zunächst das Ende des laufenden Scrub-Prozesses ab. Wenn danach im Output von zpool status -xv nach wie vor der selbe Fehler zu sehen ist
Code:
errors: Permanent errors have been detected in the following files:

  LPS/storage:<0x1785>

dann ist dies nach meinem Kenntnisstand eine irreparable Metadaten-Korruption und die einzige Möglichkeit dies zu beheben wäre den Pool neu aufzusetzen. Vorher Backup anlegen und hinter Backup wieder einspielen.

Oder kennt jemand weitere Möglichkeiten?

Beim Output der smartctl-Aufrufe fällt mir vor Allem auf, dass die Platten deutlich zu heiß werden. Alles über 40°C gilt als schädlich, auch wenn in den Datenblättern der Hersteller höhere Temperaturen genannt werden.
Code:
ada1.txt: 169  2017-09-17 12:30  46  ***************************
ada2.txt: 226  2017-09-17 12:30  46  ***************************
ada3.txt: 249  2017-09-17 12:29  47  ****************************
ada3.txt: 250  2017-09-17 12:30  46  ***************************

Code:
ada0.txt:Lifetime  Min/Max Temperature:  15/55 Celsius
ada1.txt:Lifetime  Min/Max Temperature:  2/49 Celsius
ada2.txt:Lifetime  Min/Max Temperature:  2/54 Celsius
ada3.txt:Lifetime  Min/Max Temperature:  0/49 Celsius

Sieht jemand weitere Auffälligkeiten?
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Er könnte erstmal den pool exportieren und dann importieren in der Hoffnung auf eine aussagekräftige Meldung. Danach es auch mal mit
Code:
zpool clear -F LPS
probieren, wie von Oracle empfohlen. Dann wieder scrubbing, um zu sehen, ob der Fehler wegbleibt.

Ansonsten: Die Platten werden zu heiß. Über 50 °C wird auf lange Sicht zu Problemen führen.
 

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hallo Zusammen,

also der Scrub ist durchgelaufen und es kommt keine Fehlermeldung mehr. Da hab ich wohl erstmal Glück gehabt wobei ich das jetzt 2-3 Mal wiederholen werde um sicherzugehen.
Für mich viel wichtiger - Woher kommt das. ich werde jetzt erstmal einige Memory Test machen und eventuell setze ich den Pool wirklich neu auf. Ist halt eine Rießen Kopierarbeit die ich mir nach Möglichkeit einfach sparen Möchte.

Code:
zpool clear -F LPS


Hab ich aber schon richtig verstanden dass dies dann genutzt werden sollte wenn der Pool nicht mehr importiert werden kann oder? Ich trau mich halt nicht solche Kommandos abzusetzen ohne genau zu wissen was der macht. In der Doku ist von einem Rollback die Rede.

Bzgl. der Temperaturen: Also im Schnitte liegen diese irgendwo bei 37-38 Grad. Nach längeren Operationen wie Scrubs wird es mal ca. 45 Grad warm geht dann aber wieder runter. Ich denke doch damit kann man eigentlich leben oder? Ich habe a lange gelesen die einen Sagen ab 50 Grad die anderen ab 40 Grad und der Hersteller gibt nochmal höhere Werte an.

Auf jedne Fall möchte ich euch allen herzlichen Dank für die Unterstützung am Sonntag sagen :smile:

VG S
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Wenn dein pool keine Fehlermeldung mehr hat, keinen Rollback machen!

Das war die Idee, falls der Pool ernste Probleme beim Zugriff zeigen sollte durch diesen Fehler. Wenn alles läuft, lass die Finger davon.
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
also der Scrub ist durchgelaufen und es kommt keine Fehlermeldung mehr. Da hab ich wohl erstmal Glück gehabt wobei ich das jetzt 2-3 Mal wiederholen werde um sicherzugehen.

Ich würde zunächst beobachten ob ein solcher Fehler nochmal auftritt. Backup vorhanden?

Bzgl. der Temperaturen: [...] Ich habe a lange gelesen die einen Sagen ab 50 Grad die anderen ab 40 Grad und der Hersteller gibt nochmal höhere Werte an.

Im Minimizing Hard Disk Drive Failure and Data Loss/Environmental Control Wikibook-Kapitel werden drei Quellen genannt: 1.) Die "Google-Studie" von E. Pinheiro et. al., 2.) die "Microsoft / University of Virginia Studie" von S. Sankar et. al. und 3.) ein Blackblaze Blog-Beitrag zum Thema.

1.) zeigt praktisch keine Abhängigkeit der AFR (Annual Failure Rate) von der Temperatur zwischen 35°C und 45°C. Allerdings ist der Artikel schon gut 10 Jahre alt und man darf getrost davon ausgehen, dass die der Untersuchung zugrunde liegenden Festplatten eine wesentlich geringere Kapazität hatten als heutige Modelle.

Die Veröffentlichung 2.) von 2013 zeigt einen deutlichen Anstieg der AFR im interessanten Bereich zwischen "rund 30°C" und "gut 40°C". Vorsichtige Menschen sollten daher 40°C als hohe HDD-Temperatur betrachten.

3.) betrachtet hauptsächlich den Temperaturbereich unterhalb von 30°C, der ohne Klimatisierung in vielen Gegenden dieser Erde nicht erreichbar ist.
 
Last edited:

farmerpling2

Patron
Joined
Mar 20, 2017
Messages
224
Well, I cannot read German, but I got the jist of a couple of the messages.

The drives have about 5 years of run time! They are running on borrowed time. If you have a spare drive and SATA/SAS port, you can add the spare drive as a spare to the pool.

The temp are higher than what most people would consider prudent. Manufacturers usually want it less than 40 degrees.

My concern is the constant increase / decrease of temperture. That will cause quicker drive failure than a constant high temperature, based on my expierence.

I do not see any hard drive problems. I would verify that all power/SATA/SAS cables are connected and not loose.

Also verify your power supply is not having problems. A failing power supply can cause all sorts of headaches to diagnose a problem.

In the end, I hope you have a good backup you can restore. Without looking into the ZFS source code, the hex value is likely a LBN on a disk drive.
 
Status
Not open for further replies.
Top