Raidz1 probleme mit 4. Festplatte

Status
Not open for further replies.

jonasmatteo

Cadet
Joined
Jul 13, 2018
Messages
3
Hallo Zusammen,

Ich habe nun seit gut 2 Monaten einen Freenas Server am Laufen.
In diesem habe ich 4x 1.5 TB WD Greens in einem Raidz1. 3 Davon sind baugleich, wobei die 4. nicht gleich ist.
Seit beginn kriege ich jeden Tag Mails die in etwa so aussehen:

Device: /dev/ada0, 28 Offline uncorrectable sectors
Device: /dev/ada0, 134 Currently unreadable (pending) sectors

Diese Zahlen werden von Tag zu Tag grösser und ca. nach einer Woche kommt folgende Mail:

The volume Plex state is DEGRADED: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.
Device: /dev/ada0, 28 Offline uncorrectable sectors
Device: /dev/ada0, 134 Currently unreadable (pending) sectors

Das erste Mal war für mich klar, dass etwas mit der Platte nicht stimmt, also habe ich sie kurzerhand ausgewechselt.
Die neue Platte war eine WD Red mit 3 TB. Diese fing jedoch sogleich mit den gleichen Fehlern an....
Also noch ein dritter Versuch und noch eine neue Platte eingebaut und leider wieder der gleiche Fehler....

Da es sehr unwahrscheinlich schien, dass drei Platten hinüber sind, habe ich bei allen einen SMART Test laufen lassen und dieser zeigte bei keiner der Platten auch nur einen kaputten Sektor.

Jetzt zu meinen Fragen:

Müssen alle Platten exakt Baugleich sein und die gleiche Grösse haben um in einem Raidz1 gut zu funktionieren?
Gibt es irgendeine andere Erklärung für mein Problem oder mache ich irgendetwas falsch?

Schon einmal Danke für alle Antworten!

Gruss Jonas
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Hallo,

Es sieht ganz so aus als ob du die falsche Platte gewechselt hasst... :p
Wie hasst du die Platte (also ada0) identifiziert?

Normalerweise wird dies anhand der Seriennummer der Platte gemacht um gerade zu vermeiden dass die falsche gewechselt wird.

Also wenn ich eine solche Email bekomme dann mache ich folgendes:
- sicher stellen dass ich ein Backup habe (höchste Prio!)
- Platte identifizieren (anhand Seriennummer)
- SMART Tests auf die Platte laufen lassen um die Meldung zu bestätigen (oder zumindest SMART report abrufen)
- optional: überwachen um zu sehen wie sich die Zähler in der Zeit verhalten und wie hoch sie sind (bzw. wenn "Pending sector" und "Offline uncorrectable" < 10 bleibt, je nach dem wie kritisch die Daten sind, warte ich erstmal ab)
--> in deinem Fall da die Zähler hoch gehen ist einen Ausfall der Platte sehr wahrscheinlich!

- neue Platte besorgen und testen ("burn in")
- wie in der Doku beschrieben, Platte tauschen (also über die GUI)

Normalerweise kann du verschiedene Plattengrösse haben es wird dann immer die kleinere genommen.
Exakt baugleich brauchen sie auch nicht zu sein. Ich habe verschiedene Platten gemischt WD und Seagate z.B. (aber in meinem Fall mit gleiche Grösse)


Zur Info: es wird aber abgeraten RAIDz1 mit Plattengrösse >1TB einzusetzen. Fall es dir bewusst ist, dann ok aber sonst musst du es eventuell berücksichtigen in deinem Fall.
 

jonasmatteo

Cadet
Joined
Jul 13, 2018
Messages
3
Hallo,

Danke für deine schnelle Antwort!

Die richtige Platte habe ich bereits anhand der Seriennummer identifiziert (bzw. nach Ausschlussverfahren, da die kaputte Platte keine Seriennummer mehr angezeigt hat), es war jeweils die neu hinzugefügte. Ausserdem hat die Zahl der kaputten Sektoren beim wechseln der Platte jeweils wieder tief angefangen, also würde ich ausschliessen, dass ich die falsche Platte gewechselt habe.

Das >1TB nicht empfohlen ist wusste ich nicht, was würde sich in meinem Fall für eine Alternative anbieten? raidz2? raid1?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Das ist ja Pech, wenn man die Platte wechselt und wieder Offline uncorrectable oder Pending sector Meldungen bekommt!! :-(
Darum wird auch ein richtiges Testen der neuen Platte empfohlen.
Ein guter Tipp (falls nicht bekannt) für Plattenidentifizierung: die Seriennummer auf den Platten schreiben (bzw. die letzen paar Ziffern) um sie schnell zu finden.

Für Platten >1TB wird mindestens RAIDz2 empfohlen. Oder mirror (aber der Datenverlust ist ja viel grösser... na ja ist ja abhängig von was man erreichen will).

Das >1TB nicht empfohlen ist wusste ich nicht
Es gibt im Internet reichliche Artikeln die darüber schreiben (und es bestimmt viel besser erklären als ich es würde... :p).
 

jonasmatteo

Cadet
Joined
Jul 13, 2018
Messages
3
Da ich 3 Platten in 3 Wochen getestet habe und diese laut meinen SMART test tadellos sind bin ich mir einfach nicht sicher ob es wirklich an einer dieser Platten liegt...
Das mit den Seriennummern beschriften habe ich mir durchaus schon überlegt nach dem dritten mal heraussuchen nervt dass schon ganz schön ;)
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Hmmm... ja da stellt man sich schon die Frage wenn die SMART Tests keine Fehler spucken.
Mit SMART Test vermute ich die long oder extended Test, stimmt?

Das habe ich noch nie gesehen... und ich wüsste auch nicht wo suchen um rauszufinden was sollche Fehler verursacht?!? (kann ja nur von der Platte kommen!?! :-O)
Vielleicht haben andere Forummitglieder eine Idee?
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Kann auch das Kabel sein, oder der Controller. Das mit dem Kabel würde ich zuerst überprüfen. zfs zählt die Fehler hoch, es kann also gut sein, dass ein Kabel- oder Kontrollerproblem stetig ansteigende Fehler zeigt.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Ja aber würde man mit einem Kabel SMART Fehler haben?
Weil wie hier beschrieben geht es um SMART Fehler und nicht ZFS Fehler.

Aus meiner Erfahrung (also est heisst nicht dass es auch stimmt! :tongue:) habe ich noch nie SMART Fehler durch Kabel Probleme (dagegen ZFS Fehler ja klar).
Und ganauso würde ich es vermuten wenn es Probleme mit dem Controller geben soll. Oder habe ich es falsch?
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Das sind schon zfs Fehler, sonst würde der SMART Test ja nicht zeigen, dass alles in Ordnung ist. Gerade deshalb ist die Fehlerursache irgendwo zwischen Platte und Computer - SMART sagt ja gerade, alles OK, was bei zfs ankommt, ist dagegen fehlerhaft.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Ok, also so hatte ich es nicht interpretiert... :smile:

Für mich kommen die Meldungen:
Device: /dev/ada0, 28 Offline uncorrectable sectors
Device: /dev/ada0, 134 Currently unreadable (pending) sectors
von den SMART monitoring und werden von FreeNAS über die GUI angezeigt.
(Von daher schwer zu verstehen warum sie gleichen Fehler nicht beim SMART Test rauskommen)

Die ZFS Fehler sind entweder durch zpool status im CLI oder in der GUI unter Storage und Volume status angezeigt (d.h. dann über die Spalten Read/Write/Checksum).


Immerhin, @jonasmatteo kannst du mal das Ergebnis von zpool status und von
smartctl -a /dev/ada0 aus einem Terminal zeigen?
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Wenn SMART dir einmal Fehler anzeigt, dann kriegst du die nicht weg. Quasi write-only. Das heißt, wenn ein Fehler von SMART kommt, muss der später wieder angezeigt werden.

Aber das ist nebensächlich, jetzt geht es wirklich um die Ausgaben von zpool status und smartctl. Das zählt.
 
Status
Not open for further replies.
Top