Probleme nach Ausfall Festplatte

Status
Not open for further replies.

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Hallo Forum-Gemeinde,

wir setzten FreeNas 8.3.0 auf einem Selbstbauserver Intel (Xeon Prozessor, 4 GB RAM und 4x 2 TB Platten WD) ein. Nach einem Ausfall einer Festplatte und einbau/resilver der neuen Platte, ist es mir nicht möglich, die alte Festplatte aus dem System zu entfernen und das raidz wieder in einen Online Modus zu versetzen. Zu allem Übel kommen noch metadatenfehler und Zugrifffehler auf ein datasheet dazu.

zpool status -v

pool: bkpVMWare
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:

NAME STATE READ WRITE CKSUM
bkpVMWare DEGRADED 0 0 3
raidz1 DEGRADED 0 0 18
gptid/cb50b34e-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0
gptid/cb80084e-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0
replacing DEGRADED 0 0 9
15417692308824227512 UNAVAIL 0 0 0 was /dev/gpt/disk2
gptid/a8727392-9562-11e2-91f5-000e0c4e195c ONLINE 0 0 0
gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0

errors: Permanent errors have been detected in the following files:

<metadata>:<0x23>
<metadata>:<0x25>
<metadata>:<0x4a>
/mnt/bkpVMWare/vmdk03/GUVDR02/GUVDR02-flat.vmdk
zdb



bkpVMWare
version=15
name='bkpVMWare'
state=0
txg=1890047
pool_guid=11958014940976248842
hostid=4204623876
hostname=''
vdev_tree
type='root'
id=0
guid=11958014940976248842
children[0]
type='raidz'
id=0
guid=4632588993376781713
nparity=1
metaslab_array=23
metaslab_shift=36
ashift=9
asize=7992986566656
is_log=0
children[0]
type='disk'
id=0
guid=11324777843835031281
path='/dev/gptid/cb50b34e-ad5b-11e0-afce-000e0c4e195c'
phys_path='/dev/gptid/cb50b34e-ad5b-11e0-afce-000e0c4e195c'
whole_disk=0
DTL=102
children[1]
type='disk'
id=1
guid=4017860347505741603
path='/dev/gptid/cb80084e-ad5b-11e0-afce-000e0c4e195c'
phys_path='/dev/gptid/cb80084e-ad5b-11e0-afce-000e0c4e195c'
whole_disk=0
DTL=101
children[2]
type='replacing'
id=2
guid=15432340285334706914
whole_disk=0
children[0]
type='disk'
id=0
guid=15417692308824227512
path='/dev/gpt/disk2'
whole_disk=0
not_present=1
DTL=100
children[1]
type='disk'
id=1
guid=18266705240640500799
path='/dev/gptid/a8727392-9562-11e2-91f5-000e0c4e195c'
phys_path='/dev/gptid/a8727392-9562-11e2-91f5-000e0c4e195c'
whole_disk=0
DTL=108
children[3]
type='disk'
id=3
guid=14720344589092643785
path='/dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c'
phys_path='/dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c'
whole_disk=0
DTL=99


Komme leider nicht mehr weiter. Hat jemand eine Idee?

Vielen Dank.

Gruß Jens
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
wenn eine Platte ausgefallen ist und durch eine neue ersetzt wurde, sollten bei zpool status unter replacing keine drei eintrräge auftauchen, sondern nur die zu ersetzende Platte als UNAVAIL und die neue Platte als ONLINE

So wie es aussieht wurde zunächst versucht die ausgefallene Platte mit der falschen (noch intakten) zu ersetzen und anschließend nochmal die richtige, weshalb bei Replacing zwei "neue" Platten angezeigt werden.

Das würde auch die anderen Fehler erklären, denn im raidz fehlt nun eine "original" platte.

Richtig gemacht müsste es in etwa so aussehen (angenommen a8727392-9562-11e2-91f5-000e0c4e195c ist die neue Platte):
raidz1 DEGRADED 0 0 0
gptid/cb50b34e-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0
gptid/cb80084e-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0
gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0
replacing DEGRADED 0 0 0
15417692308824227512 UNAVAIL 0 0 0 was /dev/gpt/disk2
gptid/a8727392-9562-11e2-91f5-000e0c4e195c ONLINE 0 0 0

Mir fällt spontan nix ein, was aus diesem Zustand herausführt ausser rauszufinden welche der zwei unteren Platten die originale ist und nach einem detatch wieder ein attach dieser durchzuführen damit die Originalen 3 wieder drin sind.
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Hey xaibex,


hoffe das beim kopieren der Statusmeldung kein Fehler aufgetreten ist.

Bildschirmfoto vom 2013-04-09 17:47:31.png

So siehts aus. Ist das richtig oder bleibt es dabei, dass fälschlicherweise 2 Platten getauscht wurden.?

Gruß
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
es bleibt dabei. es wurden fälschlicherweise zwei platten zum tauschen hinzugefügt. versuch rauszufinden welche die neue und welche die alte ist und entferne die alte dann erstmal mit detatch. versuch dann die alte mit attach an den zpool wieder anzuhängen. ich weis nicht genau ob das so funktioniert da ich diese Konstellation noch nie hatte aber einen versuch ist es wert.

Konkret geht es um die zwei:
gptid/a8727392-9562-11e2-91f5-000e0c4e195c ONLINE 0 0 0
gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c ONLINE 0 0 0

welche davon ist die alte und welche die neue?
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
die neue Platte ist gptid/a8727392-9562-11e2-91f5-000e0c4e195c ONLINE 0 0 0

Bei einem detach der alten Platte erhalte ich folgende Meldung:

zpool detach bkpVMWare /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c
cannot detach /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c: only applicable to mirror and replacing vdevs
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
hmmm, dann müsste man mal recherchieren wie man ein replace rückgängig machen kann. du musst diese alte platte nämlich wieder aus dem replace rausbekommen damit sie wieder normal im pool ist.
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Okay vielen Dank. Ich werde mal sehen, ob ich dazu etwas finde und berichte. :) Ansonten melde ich mich nochmal zu meinem Thread
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
Versuch mal ein
zpool offline bkpVMWare /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c

und dann wieder

zpool online bkpVMWare /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Guten Morgen,

bei Eingabe des Befehls erhalte ich folgende Meldung:
zpool offline bkpVMWare /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c
cannot offline /dev/gptid/cbd49335-ad5b-11e0-afce-000e0c4e195c: no valid replicas


Sieht so aus, also ob die Platte wirklich nicht zum raidz gehört.

Noch ne Idee?

Gruß Jens
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
Du hattest aber ursprünglich ein raidz aus 4 Platten richtig? Dann brauchst du auf jeden Fall 3 funktionierende ONLINE Platten damit das raidz noch intakt ist. Davon hast du aber laut Ausgabe nur zwei.

Mir fällt nix mehr ein was man hier noch machen könnte. Kannst du auf die nicht beschädigten Daten noch zugreifen? Hast du ein Backup der Daten?
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Du hattest aber ursprünglich ein raidz aus 4 Platten richtig?

RaidZ bestand aus 4 Platten, ja.

Dann brauchst du auf jeden Fall 3 funktionierende ONLINE Platten damit das raidz noch intakt ist. Davon hast du aber laut Ausgabe nur zwei.

Mir fällt nix mehr ein was man hier noch machen könnte.

Kannst du auf die nicht beschädigten Daten noch zugreifen?

Auf einen Teil der Daten konnte ich noch zugreifen, bei dem rest bekomme ich einen I/O Fehler.

Hast du ein Backup der Daten?
Backup habe ich leider nicht gemacht.

Ehrlich gesagt, verstehe ich nicht, warum er mir die 3 Platte auch in den Replace Vorgang gepackt hat. Wird mir wohl nich anderes übrig bleiben, als den zpool zu destroyen und neu aufzubauen.
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
Wie hast du denn den replace angestoßen? per GUI oder Konsole und wie genau?
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
Wie hast du denn den replace angestoßen? per GUI oder Konsole und wie genau?

Über die Console:

1. Replace der defekte Platte
2. Ausschalten des Systems
3. Neue Platte mit GPT und NTFS formatiert
4. neue Platte an alte Position eingebaut
5. System hochgefahren
6. Auf GUI nach Fesplatten geschaut --> Dann die alte mit numerischen Zahlen getrennt --> erfolgreich aber Platte trotzdem noch im System
7. Dann gingen die Probleme los, dass ich die alte nicht mehr aus dem System entfernen konnte.

Was mir noch eingefallen ist.. Während dieses Vorgangs hat er mir die Labels geändert.
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
ich kann die Vorgehensweise jetzt nicht 100%ig nachvollziehen, aber das klingt nicht ganz richtig.

Wenn du als allerersten Schritt auf Replace gegangen bist, hat er eine der alten Platten genommen! Denn beim Replace musst du immer eine neue Platte auswählen!

Richtig wäre:
1. Ausschalten
2. Alte Platte Raus, neue Rein (eventuell GTP / format)
3. System an
4. Replace Disk 12345 > Auswahl der neuen Platte
5. Alte Platte 12345 wird als Offline angezeigt. > Detatch.
 

hormy

Cadet
Joined
Apr 9, 2013
Messages
8
ich kann die Vorgehensweise jetzt nicht 100%ig nachvollziehen, aber das klingt nicht ganz richtig.

Wenn du als allerersten Schritt auf Replace gegangen bist, hat er eine der alten Platten genommen! Denn beim Replace musst du immer eine neue Platte auswählen!

Richtig wäre:
1. Ausschalten
2. Alte Platte Raus, neue Rein (eventuell GTP / format)
3. System an
4. Replace Disk 12345 > Auswahl der neuen Platte
5. Alte Platte 12345 wird als Offline angezeigt. > Detatch.

Die Schritte habe ich nicht in der richtigen Reihenfolge ausgeührt. Werde mal versuchen, die 4 Platte gegen eine andere zu tauschen. Evtl. funktioniert das ja und er packt sie wieder in das richtige Raidz. Mehr kaputt gehen kann im Moment nicht. :( Ansonsten hatte ich Pech.. ich werde berichten.
 
Status
Not open for further replies.
Top