Problemi con TrueNas. Disco Unknown.

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Disk Details

Name: unknown

GUID: 13206237457500709837

Come si fa a riassegnare il Name: ada6 al GUID del disco?

Sotto racconto tutta la storia e tutti i dettagli del caso.


Configurazione True Nas.

OS Version:​

TrueNAS-13.0-U5.3

Model:​

System Product Name (not specified)

Memory:​

32 GiB

Serial Number:​

System Serial Number (not specified).


Ho un pool storage costituito da 6 dischi WD Digital CRM (li ho scelti apposta CRM e non SRM) da 4TB ciascuno Sata modelli WDC WD40EFRX e WDC WD40EFZX (Purtroppo ho dovuto in un anno sostituire due EFRX e ho trovato solo gli EFZX per questo motivo sono diversi, ma sul sito li da' tutti CRM).

Un mese fa, il Nas si e' bloccato irrimediabilmente. Ho dovuto spegnerlo perche' non avevo piu' controllo, killando i processi e facendo il reboot.
Ho iniziato ad avere errori sui dischi. Ho perso un disco che dava Unavailable.

Ho cercato sul forum TrueNas. Ho provato diversi comandi sia in locale sul Nas che da remoto con la shell remota dalla gui.
Alla fine ho pensato che fosse tutto perso ed irrecuperabile.

Quando facevo il reboot mi uscivano diversi errori e non ripartiva. Non montava il pool.
Ho droppato il Pool (ma senza distruggere i dati, ho fatto solo Export).

Avevo installato il TrueNas 11 (ottenuto da upgrade del FreeNas). Ho pensato di aver perso tutto, ed ho deciso di reinstallare TrueNas ultima versione.
(la faccio breve ma dopo re-install ho ricreato lo share dei filesystem, l'utente, i gruppi, resettato psw... e varie attività).

Dopo la reinstallazione ho provato a ricreare il pool importandolo da quanto salvato. Ci ha messo un po' e alla fine con diversi errori ha ricreato il pool.

Ho provato a connettermi ed ho rivisto il contenuto che ho salvato (non ho la certezza che tutto sia leggibile e non ci siano corruzioni, sono andato a campione e sono riuscito a vedere i salvataggi che ci avevo messo sopra).

Mi dava errore come se non vedesse un disco.
Poi sono andato in ferie ed ho abbandonato.

Questa mattina ho riprovato. Ho aperto il NAS, ho controllato i dischi, e tutti i cavetti di connessione Sata. E' ripartito e non si e' ripresentato l'errore disco mancante ma ho trovato tutti i dischi ada1, ada2, ada4, ada5, ada6 Degraded (cosa che e' naturale visto che il Raid e' danneggiato), ma ada3 era Unavailable. Ho provato a metterlo Ofline, rimetterlo Online ma lo sentiva elettricamente (perche' lo vedevo come modello e serial number ma non lo vedeva dal punto di vista logico). Mettendolo Online o Offline dava errori di I/O.

Ho provato a re-importarlo ma non lo lasciava re-importare.

Ho spento tutto, ho sostituito il disco corrispondente ad ada3 con un disco gia' formattato , che avevo in casa, sempre dello stesso modello. L'ho provato sul PC Windows ed era vuoto ma formattato NTSC. (Ovviamente non ci azzecca nulla con il filesystem e la formattazione richiesta da TrueNas ma mi sarei aspettato che lo riformattasse lui, io non saprei come ripristinarlo alle condizioni scrap).

Ora non vedo piu' ada3 ma solo GUID: 13206237457500709837 e a fianco Unknonw.
Ho verificato i vari dischi ed hanno a fianco del loro specifico GUID i nome ada1, ada2, ada3, ada4 ed ada5 . Avendo tolto il disco che aveva ada3 (che ho da parte senza averlo toccato a parte averlo smontato e riposto sul tavolo), il sistema ha ridistribuito i vari ada-xx da 1 a 5 riutilizzando ada3 che era assegnato al disco sostituito.

Ho provato a metterlo offline, (va ofline e non da' piu' errori di I/O che mi dava il disco sostituito), ho provato a metterlo online e' andato online ma non viene visto piu' dal pool che ha solo 5 dischi connessi ora. Ho provato a reimportarlo ma non me lo fa importare perche' non trova nessun nome associato e non posso specificarlo io a mano.

Ho provato a riesportare il pool, lo cancella (ma solo logicamente, non cancella il contenuto dei dischi) e a reimportarlo. Dopo averlo importato ho sempre (ovviamente) i dischi degraded e il disco sostituito Unknown.
I dati li vedo.

Ora, a parte comprarmi un disco USB esterno da 16 TB per farci sopra (con tempi bibilici immagino) il backup del contenuto e poi procedere con il drop definitivo del pool e la ricreazione da zero cancellando i dati, c'e' qualche modo per ripristinare almeno temporaneamente la situazione?

E' possibile fare l'edit del nome del disco associando una label alla GUID del disco?



ada4 : DEGRADED
ada3 : DEGRADED
ada2 : DEGRADED
ada1 : DEGRADED
Unknown Disk : OFFLINE
ada5 : DEGRADED
 
Last edited:

glauco

Guru
Joined
Jan 30, 2017
Messages
526

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Ciao, se capisco bene, devi sostituire un disco rotto con uno sano.
Qui trovi le istruzioni ufficiali: https:/no/www.truenas.com/docs/core/coretutorials/storage/disks/diskreplace/
In pratica si.
Peccato pero' che la situazione sia compromessa causa problemi ed ho fatto diverse manovre.

Ci riprovo seguendo il link che mi hai segnalato

Grazie !!!

Aggiornamento:

In pratica, seguendo le istruzioni, la parte di messa offline del disco guasto e' OK. Ho spento ed ho inserito il nuovo disco.
Ho riacceso.

Il disco nuovo era gia' formattato in NTSC di suo. (L'avevo in casa e l'avevo formattato per altri scopi). Non so se questa possa essere la causa.

L'ho inserito ma ora quando cerco di seguire la seguente istruzione: " In the Pool Status, open the options for the offline disk and click Replace"
se seleziono Replace, non mi esce nessun nome del disco di cui fare replace. Come imposto il Member disk?

Replacing disk /dev/gptid/a02716c6-99fe-11ea-a40c-a85e45e61fc1


Member disk (vuoto)
Member disk * (vuoto) perche' dovrebbe popolarsi dopo aver selezionato Member disk da tendina che dovrebbe apparire.


help_outline
Help: Member disk

Choose a new disk for the pool. To protect any existing data, adding the selected disk is stopped when the disk is already in use or has partitions present.
Member disk is required.



Member disk (vuoto), (mi propone una tendina da cui selezionare il disco di cui fare replace, ma non c'e' nessun nome. Il nome del disco che appare e' quello sopra e cioe' "/dev/gptid/a02716c6-99fe-11ea-a40c-a85e45e61fc1" ).

Quindi non so come procedere per importare il nuovo disco.
 
Last edited:

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Altra aggiunta.

Ho rispento tutto.
Ho rimontato anche il disco incriminato in aggiunta a quello che vorrei sostituire. (quindi ora ho i 6 del raid piu' uno, 7 in totale).
Ho fatto ripartire il NAS.

Ora rivede in offline il disco incriminato. Non vedo pero' altri dischi, come se il disco gia' formattato in NTSC non fosse visibile. (Non l'ho fisicamente staccato). Cioe' ne vedo solo 6 (i sei titolari del raid).

Ho provato anche a fare il Replace del disco stesso incriminato (su se' stesso). Lo so che non andrebbe fatto se ha problemi, ma sono disperato e visto che tanto e' andato come disco volevo fare quella prova.
In questo caso me lo rivede come disco ada3, come all'origine, mi lascia lanciare la Replace ma dopo un po' mi da' enne errori e finisce male.

Gli errori sono i seguenti:

Error Replacing Disk​

Could not replace disk.
remove_circle_outlineMore info...

Error: Traceback (most recent call last):
File "/usr/local/lib/python3.9/site-packages/middlewared/job.py", line 355, in run
await self.future
File "/usr/local/lib/python3.9/site-packages/middlewared/job.py", line 391, in __run_body
rv = await self.method(*([self] + args))
File "/usr/local/lib/python3.9/site-packages/middlewared/schema.py", line 981, in nf
return await f(*args, **kwargs)
File "/usr/local/lib/python3.9/site-packages/middlewared/plugins/pool_/replace_disk.py", line 78, in replace
await self.middleware.call('pool.format_disks', job, disks)
File "/usr/local/lib/python3.9/site-packages/middlewared/main.py", line 1279, in call
return await self._call(
File "/usr/local/lib/python3.9/site-packages/middlewared/main.py", line 1236, in _call
return await methodobj(*prepared_call.args)
File "/usr/local/lib/python3.9/site-packages/middlewared/plugins/pool_/format_disks.py", line 28, in format_disks
await asyncio_map(format_disk, disks.items(), limit=16)
File "/usr/local/lib/python3.9/site-packages/middlewared/utils/asyncio_.py", line 16, in asyncio_map
return await asyncio.gather(*futures)
File "/usr/local/lib/python3.9/site-packages/middlewared/utils/asyncio_.py", line 13, in func
return await real_func(arg)
File "/usr/local/lib/python3.9/site-packages/middlewared/plugins/pool_/format_disks.py", line 24, in format_disk
await self.middleware.call('disk.format', disk, swapgb if config['create_swap'] else 0, False)
File "/usr/local/lib/python3.9/site-packages/middlewared/main.py", line 1279, in call
return await self._call(
File "/usr/local/lib/python3.9/site-packages/middlewared/main.py", line 1247, in _call
return await self.run_in_executor(prepared_call.executor, methodobj, *prepared_call.args)
File "/usr/local/lib/python3.9/site-packages/middlewared/main.py", line 1152, in run_in_executor
return await loop.run_in_executor(pool, functools.partial(method, *args, **kwargs))
File "/usr/local/lib/python3.9/concurrent/futures/thread.py", line 58, in run
result = self.fn(*self.args, **self.kwargs)
File "/usr/local/lib/python3.9/site-packages/middlewared/plugins/disk_/format.py", line 21, in format
raise CallError(f'Failed to wipe disk {disk}: {job.error}')
middlewared.service_exception.CallError: [EFAULT] Failed to wipe disk ada3: [Errno 5] Input/output error


Ci sono possibilità o altre manovre da fare?
Grazie
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Ulteriore aggiornamento.
Ora sono riuscito ad avere tutti e 6 i dischi attivi.
Purtroppo sono tutti in stato degradato ed il disco ada3 (quello incriminato) e' visto anche lui come degradato, ma secondo me non sta lavorando (per questo penso che tutti gli altri siano degradati).

Ora riproverei anche a rifare l'operazione di sostituzione disco, tuttavia sembra che il NAS non veda il settimo disco che ho connesso per sostituirlo (e se tolgo il disco incriminato, probabilmente lo rivede, ma non lo importa e mi riduce il pool a 5 dischi fisici e uno sconosciuto).
 

glauco

Guru
Joined
Jan 30, 2017
Messages
526
Ciao, per puro caso mi sono ritrovato a dover fare un replace anch'io, ma sta andando tutto liscio come l'olio.
Ho appena effettuato il replace (che è un'operazione di pochi secondi) e attualmente sta facendo il resilvering. Il resilvering impiega parecchie ore (dipende dalla quantità di dati che hai sul pool) e finché non finisce, il disco nuovo continua a risultare offline e il pool continua a risultare "degraded", come vedi nello screenshot.
Tu nel frattempo sei riuscito a risolvere?

1693550498506.png
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Non ancora risolto, ma i dati li vedo. Sto salvandoli su USB esterni. Poi cancellero' il Pool e lo ricreero'... ma ci sto mettendo del tempo.

Ora ho 5 dischi Degraded e 1 Disco Removed. Non riesco a fargli vedere il disco che ho inserito. Non capisco se sia perche' e' gia' pre-formattato NTSC.
Vorrei capire come forzare la riformattazione.

Ho provato ad installare oltre al disco danneggiato anche il disco 'nuovo' ma gia' formattato. Solo che non ce ne esco.
(Di sostituzioni ne ho gia' fatte 2 in un anno e mezzo, ma non ho mai avuto alcun problema. Sempre andato tutto liscio.. perfetto).
Credo che ora sia in una situazione particolare.
Forse con qualche comando da Shell magari si riesce, finora non ho ancora trovato i comandi giusti.

Devo dire (problemi a parte), che il sistema in se' e' comunque ottimo e sicuro, nonostante abbia errori, i dati li vedo ancora presenti e li sto copiando lentamente (per problemi di spazio per cui devo fare copie mirate) su altri dischi. Quindi di fatto (per ora) nessuna perdita.

Settimana prossima non penso di riuscirci, poi saro' via un paio di settimane. Spegnero' tutto, e quando torno mi procurero' un USB esterno da 14TB, poi ricopiero' tutto e distruggero' il raid rifacendolo.

In ogni caso temo che la mia situazione non sia molto stabile. (problemi forse HW?) cosa potrei verificare?
 

Davvo

MVP
Joined
Jul 12, 2022
Messages
3,222
Guarda, ti chiederei un bel zpool status per capire la situazione, così come un camcontrol devlist.
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Volevo solo fare il punto della situazione aggiornato.

Allora, sono riuscito a mettere in stato Removed il disco incriminato. Ho spento il NAS ed ho attaccato un disco identico che avevo in casa. Purtroppo il disco che avevo in casa (non utilizzato), l'avevo gia' formattato NTSC, quindi ha una partizione gia' creata, seppure vuota e quindi distruggibile senza problemi.

Ora riuscirei anche a reimportarlo al posto del disco messo in Removed e fisicamente rimosso, solo che mi da' il seguente errore (e' corretto ovviamente che mi dia l'errore, ma vorrei capire come bypassarlo).
[EINVAL] options.force: Disk is not clean, partitions were found.

Come posso distruggere la partizione esistente creata tempo fa sul disco ?
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Mi auto rispondo... ho messo il flag FORCE. (me l'ero perso), mea culpa. Vediamo cosa succede ora...
Sembra l'abbia sostituito ed e' partito il resilvering. Vediamo che succede al termine.

Poi provo a lanciare i comandi suggeriti sopra.

Grazie
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
@Davvo. I comandi li lancio da shell, corretto? Poi come faccio a copiarli? Non me li lascia copiare.
 

Davvo

MVP
Joined
Jul 12, 2022
Messages
3,222
Devi usare un terminale esterno come putty e il servizio SSH.
In alternativa fai screen.
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Grazie

Spero sia leggibile... ho fatto screen stamp.

1693680929016.png


1693681027629.png


1693681212307.png


1693681366503.png


Comunque e' al 19.xx% del Resilvering. Vediamo domani mattina quando avrà terminato che succederà

1693681505751.png
 
Last edited:

Davvo

MVP
Joined
Jul 12, 2022
Messages
3,222
Il problema grande è che ti vede solo due dischi. Come li stai collegando alla scheda madre? Quale è il tuo hardware (scheda madre, etc)?
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
Scusami, non ho capito dove vedi che mi vede solo due dischi. I dischi connessi sono 6 piu' due di boot (non in mirroring pero', separati).
Lo chiedo perche' ero convinto di vederli tutti e volevo capire dove sbaglio.

Per le domande sulla scheda madre, devo verificare perche' ora non ricordo (l'ho assemblato piu' di 2 anni fa) e' una scheda madre miniITX, le info (oltre che sulla scheda madre, ovviamente,) le ho da qualche parte, poi ci guardo e appena le trovo ti aggiorno.

I dischi sono 8 in tutto.
6 sono connessi alla scheda madre direttamente, 2 sono connessi ad un controller PCIe perche' non avevo piu' slot liberi sulla scheda madre.

I dischi sono :

ada0
AA000000000000000302
238.47 GiB
boot-pool



ada1
WD-WX32DC0EV6J2
3.64 TiB
FreeNAS



ada2
WD-WXA2D21PSV6R
3.64 TiB
FreeNAS



ada3
WD-WCC7K2YHZDDN
3.64 TiB
FreeNAS



ada4
ZDH02K9H
3.64 TiB
FreeNAS


ada5
WD-WCC7K4ZP1C74
3.64 TiB
FreeNAS



ada6
WD-WCC7K5RVA72C
3.64 TiB
FreeNAS



nvd0
7EBD07020E6101008002
238.47 GiB
boot-pool


ada0 ed nvd0 sono i due dischi di boot (uno solo n realta' utilizzato non essendo in mirroring anche se al setup li ho indicati entrambi, non ho capito come siano gestiti, ero convinto in mirroring ma non mi pare lo siano).

i dischi da ada1 ad ada6 sono i dischi del Raid
ada3 e' il disco che ho sostituito.

Se noti, il disco ada4 non e' un WD ma un Seagate da 4TB. L'avevo installato originariamente perche' ne avevo in casa uno inutilizzato e mi mancava il sesto disco WD, con l'intento di sostituirlo con un WD successivamente.
Purtroppo quando mi arrivo' il WD, dovetti utilizzarlo per sostituire un altro WD con problemi e quindi rimase il Seagate (che tra tutti non mi ha mai dato problemi, lo sostituirei solo perche' non mi piace avere un Raid con dischi misti).

Oggi dopo il resilvering terminato nella notte mi trovo tutti i dischi del Raid sempre in stato DEGRADED ad esclusione del disco ada3 sostituito ieri che e' l'unico ONLINE.


In ogni caso, a prescindere dal riuscire o no a ripararlo, secondo me, anche in passato ho dovuto sostituire due dischi WD in due tempi diversi, come se qualcosa (HW ?) desse problemi.

Io non ci spenderei troppo tempo a questo punto a cercare di ripristinarlo.
Personalmente farei quanto segue:

1) Cercare di salvare il salvabile (che comunque non e' in copia unica ma spalmato gia' su enne dischi esterni USB), consolidando i files su un disco USB esterno grande (lo devo ordinare).

2) Cercare di capire le cause di instabilità (poi ti mando esattamente la configurazione HW) e risolverle per quanto possibile.

3) Dropperei tutto e rifarei il Raid. (Gia' l'installazione l'ho rifatta pulita partendo da TrueNas, prima ero migrato da FreeNas a TrueNas).

Gia' che ci sono potrei anche pensare di utilizzare dischi piu' capaci dei 4TB che ho ora o fare configurazioni diverse magari piu' resilienti.
 

Davvo

MVP
Joined
Jul 12, 2022
Messages
3,222
Di che controller PCIe stiamo parlando?

Lo screen di camcontrol devlist che hai postato mostra solo l'SSD e due HDD.

Nota: non è RAID ma RAIDZ. RAID e ZFS non sono compatibili.
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46
1693754961424.png


Probabilmente perche' ho lanciato il comando ieri mentre stava facendo il resilvering. Oppure mio errore nel copiarlo.
Ora li da' tutti.
 

apsx

Dabbler
Joined
Oct 8, 2012
Messages
46

Componenti:

Case: Case Fractal Node 804 con finestra (FD-CA-NODE-804-BL-W) [FD-CA-NODE-804-BL-W]

Cavi Sata di connessione: CABLEDECONN 6Gbps ad Alta Velocità 4pz/Set Cavo Sata 3 III SAS per Server 1M

Alimentatore: Corsair CX550M Alimentatore PC, 80 Plus Bronze, 550 W, CXM (Cavo semimodulare)

Motherboard: Scheda Madre Asus Prime B365M-A 1151 [90MB10N0-M0EAY0]

Cpu: Cpu Intel Core I5-9400 2.9G 1151 BOX [BX80684I59400]

RAM : Crucial Ballistix BL2K16G26C16U4W 2666 MHz, DDR4, DRAM, Memoria Gaming Kit per Computer Fissi, 32 GB (16 GB x2), CL16

Scheda Sata aggiuntiva: MZHOU Scheda PCIe SATA a 6 Porte, Scheda di espansione del Controller da PCIe a SATA, Scheda PCIe SATA 3.0 a 6 Gbps con 6 Cavi SATA, Chip Marvell 88SE9215 a 6 Porte, Supporto per HDD o SSD
(Ho aggiunto questa scheda perche' la scheda madre aveva solo 6 porte Sata e me ne servivano 8). Potrebbe essere questo il problema dell'instabilità? E' meglio connettere tutti i sei dischi dello ZRaid o alla scheda madre oppure alla scheda aggiuntiva PCIe - Sata? Temo di averli connessi un po' all'una e un po' all'altra. Che potrebbe essere un grave errore probabilmente con il senno di poi. Pensavo di parallelizzare meglio il carico ma evidentemente ho sbagliato. E' il caso di sostituirla con un'altra eventualmente?
 
Top