Critical Smart Error

s25a · Sep 17, 2017

Hallo Zusammen,

nachdem mein Freenas nun endlich ein par Tage läuft habe ich heute Nacht eine Email vom system bekommen die da heißt:

Code:

The volume LPS state is ONLINE: One or more devices has experienced an error resulting in data corruption. Applications may be affected.

Ich hab mich sofort auf das System geschaltet weil ich natürlich nicht möchte das hier irgendetwas defekt geht. Leider schaffe ich es nicht einen Fehler aufzuspüren denn schaue ich mir den Speicher an:

Ist alles prima.

Nur zum Verständnis. Muss ich jetzt selber auf Fehlersuche gehen bzw. Tests durchführen? Gibt es hierzu eine Dokumentation?
Einen automatischen Smartest habe ich unter den Aufgaben angelegt. Wo sehe ich denn die jeweiligen Ergebnisse?

Könnt ihr mir bitte helfen ich bin gerade sehr verunsichert was da passiert.

Viele Grüße

S

s25a · Sep 17, 2017

Hi,

hab gerade noch was in einer anderen Email gefunden (Daily Run Output)

Code:

Checking status of zfs pools:

NAME  SIZE  ALLOC  FREE  EXPANDSZ  FRAG  CAP  DEDUP  HEALTH  ALTROOT

LPS  10.9T  5.28T  5.59T  -  24%  48%  1.00x  ONLINE  /mnt

freenas-boot  29.5G  1.44G  28.1G  -  -  4%  1.00x  ONLINE  -


  pool: LPS

 state: ONLINE

status: One or more devices has experienced an error resulting in data

  corruption.  Applications may be affected.

action: Restore the file in question if possible.  Otherwise restore the

  entire pool from backup.

  see: http://illumos.org/msg/ZFS-8000-8A

  scan: scrub in progress since Sun Sep 17 00:00:01 2017

  3.87T scanned out of 5.28T at 374M/s, 1h5m to go

  0 repaired, 73.35% done

config:


  NAME  STATE  READ WRITE CKSUM

  LPS  ONLINE  0  0  1

	raidz1-0   ONLINE  0  0  2

    gptid/5a988f11-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5b607492-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5c324587-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0

    gptid/5cf71382-92d8-11e7-a4e0-e840f2c37ef0  ONLINE  0  0  0


errors: 1 data errors, use '-v' for a list


Local system status:

 3:01AM  up 1 day, 11:11, 0 users, load averages: 0.68, 0.48, 0.38


-- End of daily output --

farmerpling2 · Sep 17, 2017

Do:

smartctl -x /dev/adax

Replace x with drive number. Use glabel status to figure out which Unix drive nomenclature is having the problem. Post the output to let us see what smart is thinking.

 

[root@nas]# glabel status

  Name  Status  Components

gptid/2806b657-048d-11e7-b6f6-d8cb8a9edb89  N/A  ada0p2

gptid/f8be2dcd-9372-11e7-8f10-d8cb8a9edb89  N/A  ada2p2

gptid/6c190144-95c4-11e7-8738-d8cb8a9edb89  N/A  ada3p2

gptid/379cff72-942e-11e7-8f10-d8cb8a9edb89  N/A  ada5p2

gptid/80ad21b4-9a6e-11e7-959a-d8cb8a9edb89  N/A  ada4p2

Also execute the command and post its output:

zpool status -xv

s25a · Sep 17, 2017

Hi,

thanks a lot. Here are the output Files

S

MrToddsFriends · Sep 17, 2017

Aus zpool.txt:

Code:

  scan: scrub in progress since Sun Sep 17 11:30:20 2017
  1.32T scanned out of 5.28T at 369M/s, 3h7m to go
  0 repaired, 24.95% done

Warte zunächst das Ende des laufenden Scrub-Prozesses ab. Wenn danach im Output von zpool status -xv nach wie vor der selbe Fehler zu sehen ist

Code:

errors: Permanent errors have been detected in the following files:

  LPS/storage:<0x1785>

dann ist dies nach meinem Kenntnisstand eine irreparable Metadaten-Korruption und die einzige Möglichkeit dies zu beheben wäre den Pool neu aufzusetzen. Vorher Backup anlegen und hinter Backup wieder einspielen.

Oder kennt jemand weitere Möglichkeiten?

Beim Output der smartctl-Aufrufe fällt mir vor Allem auf, dass die Platten deutlich zu heiß werden. Alles über 40°C gilt als schädlich, auch wenn in den Datenblättern der Hersteller höhere Temperaturen genannt werden.

Code:

ada1.txt: 169  2017-09-17 12:30  46  ***************************
ada2.txt: 226  2017-09-17 12:30  46  ***************************
ada3.txt: 249  2017-09-17 12:29  47  ****************************
ada3.txt: 250  2017-09-17 12:30  46  ***************************

Code:

ada0.txt:Lifetime  Min/Max Temperature:  15/55 Celsius
ada1.txt:Lifetime  Min/Max Temperature:  2/49 Celsius
ada2.txt:Lifetime  Min/Max Temperature:  2/54 Celsius
ada3.txt:Lifetime  Min/Max Temperature:  0/49 Celsius

Sieht jemand weitere Auffälligkeiten?

emk2203 · Sep 17, 2017

Er könnte erstmal den pool exportieren und dann importieren in der Hoffnung auf eine aussagekräftige Meldung. Danach es auch mal mit

Code:

zpool clear -F LPS

probieren, wie von Oracle empfohlen. Dann wieder scrubbing, um zu sehen, ob der Fehler wegbleibt.

Ansonsten: Die Platten werden zu heiß. Über 50 °C wird auf lange Sicht zu Problemen führen.

s25a · Sep 17, 2017

Hallo Zusammen,

also der Scrub ist durchgelaufen und es kommt keine Fehlermeldung mehr. Da hab ich wohl erstmal Glück gehabt wobei ich das jetzt 2-3 Mal wiederholen werde um sicherzugehen.
Für mich viel wichtiger - Woher kommt das. ich werde jetzt erstmal einige Memory Test machen und eventuell setze ich den Pool wirklich neu auf. Ist halt eine Rießen Kopierarbeit die ich mir nach Möglichkeit einfach sparen Möchte.

Code:

zpool clear -F LPS

Hab ich aber schon richtig verstanden dass dies dann genutzt werden sollte wenn der Pool nicht mehr importiert werden kann oder? Ich trau mich halt nicht solche Kommandos abzusetzen ohne genau zu wissen was der macht. In der Doku ist von einem Rollback die Rede.

Bzgl. der Temperaturen: Also im Schnitte liegen diese irgendwo bei 37-38 Grad. Nach längeren Operationen wie Scrubs wird es mal ca. 45 Grad warm geht dann aber wieder runter. Ich denke doch damit kann man eigentlich leben oder? Ich habe a lange gelesen die einen Sagen ab 50 Grad die anderen ab 40 Grad und der Hersteller gibt nochmal höhere Werte an.

Auf jedne Fall möchte ich euch allen herzlichen Dank für die Unterstützung am Sonntag sagen

VG S

emk2203 · Sep 17, 2017

Wenn dein pool keine Fehlermeldung mehr hat, keinen Rollback machen!

Das war die Idee, falls der Pool ernste Probleme beim Zugriff zeigen sollte durch diesen Fehler. Wenn alles läuft, lass die Finger davon.

MrToddsFriends · Sep 17, 2017

s25a said:
also der Scrub ist durchgelaufen und es kommt keine Fehlermeldung mehr. Da hab ich wohl erstmal Glück gehabt wobei ich das jetzt 2-3 Mal wiederholen werde um sicherzugehen.

Ich würde zunächst beobachten ob ein solcher Fehler nochmal auftritt. Backup vorhanden?

s25a said:
Bzgl. der Temperaturen: [...] Ich habe a lange gelesen die einen Sagen ab 50 Grad die anderen ab 40 Grad und der Hersteller gibt nochmal höhere Werte an.

Im Minimizing Hard Disk Drive Failure and Data Loss/Environmental Control Wikibook-Kapitel werden drei Quellen genannt: 1.) Die "Google-Studie" von E. Pinheiro et. al., 2.) die "Microsoft / University of Virginia Studie" von S. Sankar et. al. und 3.) ein Blackblaze Blog-Beitrag zum Thema.

1.) zeigt praktisch keine Abhängigkeit der AFR (Annual Failure Rate) von der Temperatur zwischen 35°C und 45°C. Allerdings ist der Artikel schon gut 10 Jahre alt und man darf getrost davon ausgehen, dass die der Untersuchung zugrunde liegenden Festplatten eine wesentlich geringere Kapazität hatten als heutige Modelle.

Die Veröffentlichung 2.) von 2013 zeigt einen deutlichen Anstieg der AFR im interessanten Bereich zwischen "rund 30°C" und "gut 40°C". Vorsichtige Menschen sollten daher 40°C als hohe HDD-Temperatur betrachten.

3.) betrachtet hauptsächlich den Temperaturbereich unterhalb von 30°C, der ohne Klimatisierung in vielen Gegenden dieser Erde nicht erreichbar ist.

farmerpling2 · Sep 17, 2017

Well, I cannot read German, but I got the jist of a couple of the messages.

The drives have about 5 years of run time! They are running on borrowed time. If you have a spare drive and SATA/SAS port, you can add the spare drive as a spare to the pool.

The temp are higher than what most people would consider prudent. Manufacturers usually want it less than 40 degrees.

My concern is the constant increase / decrease of temperture. That will cause quicker drive failure than a constant high temperature, based on my expierence.

I do not see any hard drive problems. I would verify that all power/SATA/SAS cables are connected and not loose.

Also verify your power supply is not having problems. A failing power supply can cause all sorts of headaches to diagnose a problem.

In the end, I hope you have a good backup you can restore. Without looking into the ZFS source code, the hex value is likely a LBN on a disk drive.

Important Announcement for the TrueNAS Community.

Critical Smart Error

s25a

Explorer

s25a

Explorer

farmerpling2

Patron

s25a

Explorer

Attachments

MrToddsFriends

Documentation Browser

emk2203

Guru

s25a

Explorer

emk2203

Guru

MrToddsFriends

Documentation Browser

farmerpling2

Patron

Similar threads

Important Announcement for the TrueNAS Community.

Critical Smart Error

Explorer

Explorer

Patron

Explorer

Attachments

Documentation Browser

Guru

Explorer

Guru

Documentation Browser

Patron

Important Announcement for the TrueNAS Community.

Related topics on forums.truenas.com for thread: "Critical Smart Error"

Similar threads