Hilfe / Alert oder doch keiner

Status
Not open for further replies.

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hallo Zusammen,

zum ersten Mal nach ca. 1 Jahr betrieb habe ich heute Nacht eine Email von meinem Freenas Bekommen mit folgender Meldung:

Code:
The volume H**** state is DEGRADED: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state.


Ich hab mich daraufhin heute morgen sofort auf meinem Freenas eingeloggt und dort keinerlei Hinweis auf einen entsprechenden Zustand gefunden. Nun frage ich mich,.....Was soll ich denn jetzt tun. Es existieren Backups für das System also ich jetzt keine Angst um meine Daten dennoch verunsichert mich sowas natürlich.

Irgendwelche Tipps?
hc_001.jpg
hc_002.jpg
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Vielleicht sind bei den SMART Test Ergebnis was zu finden?

Und mit zpool status? Um zu schauen welche Festplatte eventuell ein Problem hat.

Falls alles okay ist dann würde ich einen Scrub laufen lassen und nach den Ergebnis schauen, ob da noch was auffälliges raus kommt.
 

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hallo Zusammen,

also sowohl in den Smart Tests als auch mit zpool status ist alles im Grünen Bereich. Das verunsichert mich jetzt sehr muss ich sagen. Hattet ihr denn auch schonmal solch eine Meldung? Weiterhin hab ich wie empfohlen den SCRUB ausgeführt und daraufhin eine Email bekommen mit folgendem Code:

Leider sagt mir das überhaupt nichts ich würde mir wirklich wünschen dass man vom System auch mal aussagefähige und verständliche Nachrichten bekommt. Oder wie gehts es euch damit.

Vielen Dank erstmal und Grüße

S

Code:
Traceback (most recent call last):

  File "/usr/local/bin/midclt", line 10, in <module>

  sys.exit(main())

  File "/usr/local/lib/python3.6/site-packages/middlewared/client/client.py", line 325, in main

  with Client(uri=args.uri) as c:

  File "/usr/local/lib/python3.6/site-packages/middlewared/client/client.py", line 114, in __init__

  self._ws.connect()

  File "/usr/local/lib/python3.6/site-packages/middlewared/client/client.py", line 51, in connect

  rv = super(WSClient, self).connect()

  File "/usr/local/lib/python3.6/site-packages/ws4py/client/__init__.py", line 216, in connect

  bytes = self.sock.recv(128)

socket.timeout: timed out
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Also da weiß ich auch nicht weiter! Vielleicht können andere Forum Mitglieder was dazu ergänzen.

In der zwischen Zeit kannst Du mal den Ausgang von zool status geben? Mal sehen ob da was auffällt.
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Ich würde die Verkabelung der Festplatten im System überprüfen. Eventuell ist bei Strom- und/oder Datenverbindungen ein Fehler zu finden, wenn sporadisch eine Festplatte aus dem System zu verschwinden scheint und hinterher wieder da ist. Mache bitte Angaben zur Hardware, insbesondere Mainboard und SATA-Controller.

Neben dem Output von zpool status waere auch der Output von smartctl –a /dev/ada0 interessant, wie im Hard Drive Troubleshooting Guide angegeben ( /dev/ada0 durch passenden Gerätenamen ersetzen). Output beider Befehle hier im Forum bitte in CODE Tags setzen.

Ein Traceback ist übrigens ein sicherer Hinweise auf einen Softwarefehler und damit ein Fall für einen Bugreport. Der Text des Traceback soll für Entwickler verständlich sein, nicht für Anwender. Unter welcher FreeNAS Version ist dieser Traceback aufgetreten?
 

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hallo,

ok passt und verstanden. Vielen Dank für die Hilfe.
Dann mal alleOutputs hier als kopierbarer Code. Der Traceback ist unter der aktuellen Freenas Version entstanden.(11.0-U2 (e417d8aa5)

Bzgl. der Hardware:
Es handelt sich um ein Mainboard von Asrock mit dem C236 Chipsatz,XEON V5 CPU und 16GB ECC Speicher.
Das Board 8 Internet SATA Schnittstellen. AUf 1 und 2 sind Boot Medium (SLC SATA DOM und Laufwerk) auf 3-8 dann die Festplatte wobei 3 -4 zwei Samsung SSDs sind (850 PRO Serie) und 5-8 4TB Festplatte von WD (WD RED)

VG S

Code:
root@nas:~ # zpool status
  pool: HPS
state: ONLINE
  scan: resilvered 484K in 0h0m with 0 errors on Sun Jul 23 02:42:25 2017
config:

		NAME											STATE	 READ WRITE CKSUM
		HPS											 ONLINE	   0	 0	 0
		  mirror-0									  ONLINE	   0	 0	 0
			gptid/f1a8beac-d8c2-11e5-8bc4-d05099c0b720  ONLINE	   0	 0	 0
			gptid/f1d6d5d0-d8c2-11e5-8bc4-d05099c0b720  ONLINE	   0	 0	 0

errors: No known data errors

  pool: LPS
state: ONLINE
  scan: scrub repaired 0 in 7h50m with 0 errors on Sun Jul  2 07:50:21 2017
config:

		NAME											STATE	 READ WRITE CKSUM
		LPS											 ONLINE	   0	 0	 0
		  raidz1-0									  ONLINE	   0	 0	 0
			gptid/715b47de-9dc3-11e6-88c2-d05099c0b720  ONLINE	   0	 0	 0
			gptid/72053984-9dc3-11e6-88c2-d05099c0b720  ONLINE	   0	 0	 0
			gptid/72b530ac-9dc3-11e6-88c2-d05099c0b720  ONLINE	   0	 0	 0
			gptid/735cf7f8-9dc3-11e6-88c2-d05099c0b720  ONLINE	   0	 0	 0

errors: No known data errors

  pool: freenas-boot
state: ONLINE
  scan: scrub repaired 0 in 0h1m with 0 errors on Sun Jul  9 03:46:15 2017
config:

		NAME		STATE	 READ WRITE CKSUM
		freenas-boot  ONLINE	   0	 0	 0
		  ada0p2	ONLINE	   0	 0	 0

errors: No known data errors


Festplatte ADA1 (Erste 1TB SSD im Spiegel)

Code:
root@nas:~ # smartctl -a /dev/ada1
smartctl 6.5 2016-05-07 r4318 [FreeBSD 11.0-STABLE amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:	 Samsung based SSDs
Device Model:	 Samsung SSD 850 PRO 1TB
Serial Number:	S252NXAG820276K
LU WWN Device Id: 5 002538 8400909c2
Firmware Version: EXM02B6Q
User Capacity:	1,024,209,543,168 bytes [1.02 TB]
Sector Size:	  512 bytes logical/physical
Rotation Rate:	Solid State Device
Device is:		In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:	Tue Jul 25 09:28:17 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
										was never started.
										Auto Offline Data Collection: Disabled.
Self-test execution status:	  (   0) The previous self-test routine completed
										without error or no self-test has ever
										been run.
Total time to complete Offline
data collection:				(	0) seconds.
Offline data collection
capabilities:					(0x53) SMART execute Offline immediate.
										Auto Offline data collection on/off support.
										Suspend Offline collection upon new
										command.
										No Offline surface scan supported.
										Self-test supported.
										No Conveyance Self-test supported.
										Selective Self-test supported.
SMART capabilities:			(0x0003) Saves SMART data before entering
										power-saving mode.
										Supports SMART auto save timer.
Error logging capability:		(0x01) Error logging supported.
										General Purpose Logging supported.
Short self-test routine
recommended polling time:		(   2) minutes.
Extended self-test routine
recommended polling time:		( 543) minutes.
SCT capabilities:			  (0x003d) SCT Status supported.
										SCT Error Recovery Control supported.
										SCT Feature Control supported.
										SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME		  FLAG	 VALUE WORST THRESH TYPE	  UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010	Pre-fail  Always	   -	   0
  9 Power_On_Hours		  0x0032   096   096   000	Old_age   Always	   -	   16584
12 Power_Cycle_Count	   0x0032   099   099   000	Old_age   Always	   -	   119
177 Wear_Leveling_Count	 0x0013   099   099   000	Pre-fail  Always	   -	   5
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010	Pre-fail  Always	   -	   0
181 Program_Fail_Cnt_Total  0x0032   100   100   010	Old_age   Always	   -	   0
182 Erase_Fail_Count_Total  0x0032   100   100   010	Old_age   Always	   -	   0
183 Runtime_Bad_Block	   0x0013   100   100   010	Pre-fail  Always	   -	   0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000	Old_age   Always	   -	   0
190 Airflow_Temperature_Cel 0x0032   062   045   000	Old_age   Always	   -	   38
195 ECC_Error_Rate		  0x001a   200   200   000	Old_age   Always	   -	   0
199 CRC_Error_Count		 0x003e   100   100   000	Old_age   Always	   -	   0
235 POR_Recovery_Count	  0x0012   099   099   000	Old_age   Always	   -	   97
241 Total_LBAs_Written	  0x0032   099   099   000	Old_age   Always	   -	   6610913942

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description	Status				  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline	Completed without error	   00%	 16534		 -
# 2  Extended offline	Completed without error	   00%	 16486		 -
# 3  Extended offline	Completed without error	   00%	 16438		 -
# 4  Extended offline	Completed without error	   00%	 16390		 -
# 5  Extended offline	Completed without error	   00%	 16366		 -
# 6  Extended offline	Completed without error	   00%	 16318		 -
# 7  Extended offline	Completed without error	   00%	 16271		 -
# 8  Extended offline	Completed without error	   00%	 16229		 -
# 9  Extended offline	Completed without error	   00%	 16205		 -
#10  Extended offline	Completed without error	   00%	 16157		 -
#11  Extended offline	Completed without error	   00%	 16109		 -
#12  Extended offline	Completed without error	   00%	 16061		 -
#13  Extended offline	Completed without error	   00%	 16037		 -
#14  Extended offline	Completed without error	   00%	 15989		 -
#15  Extended offline	Completed without error	   00%	 15941		 -
#16  Extended offline	Completed without error	   00%	 15893		 -
#17  Extended offline	Completed without error	   00%	 15869		 -
#18  Extended offline	Completed without error	   00%	 15821		 -
#19  Extended offline	Completed without error	   00%	 15773		 -
#20  Extended offline	Completed without error	   00%	 15725		 -
#21  Extended offline	Completed without error	   00%	 15701		 -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
	1		0		0  Not_testing
	2		0		0  Not_testing
	3		0		0  Not_testing
	4		0		0  Not_testing
	5		0		0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Festplatte ADA2 (Zweite 1TB SSD im Spiegel)
Code:
root@nas:~ # smartctl -a /dev/ada2
smartctl 6.5 2016-05-07 r4318 [FreeBSD 11.0-STABLE amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:	 Samsung based SSDs
Device Model:	 Samsung SSD 850 PRO 1TB
Serial Number:	S252NCAGA00376M
LU WWN Device Id: 5 002538 870148124
Firmware Version: EXM02B6Q
User Capacity:	1,024,209,543,168 bytes [1.02 TB]
Sector Size:	  512 bytes logical/physical
Rotation Rate:	Solid State Device
Device is:		In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:	Tue Jul 25 09:29:37 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
										was never started.
										Auto Offline Data Collection: Disabled.
Self-test execution status:	  (   0) The previous self-test routine completed
										without error or no self-test has ever
										been run.
Total time to complete Offline
data collection:				(	0) seconds.
Offline data collection
capabilities:					(0x53) SMART execute Offline immediate.
										Auto Offline data collection on/off support.
										Suspend Offline collection upon new
										command.
										No Offline surface scan supported.
										Self-test supported.
										No Conveyance Self-test supported.
										Selective Self-test supported.
SMART capabilities:			(0x0003) Saves SMART data before entering
										power-saving mode.
										Supports SMART auto save timer.
Error logging capability:		(0x01) Error logging supported.
										General Purpose Logging supported.
Short self-test routine
recommended polling time:		(   2) minutes.
Extended self-test routine
recommended polling time:		( 543) minutes.
SCT capabilities:			  (0x003d) SCT Status supported.
										SCT Error Recovery Control supported.
										SCT Feature Control supported.
										SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME		  FLAG	 VALUE WORST THRESH TYPE	  UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010	Pre-fail  Always	   -	   0
  9 Power_On_Hours		  0x0032   096   096   000	Old_age   Always	   -	   16209
12 Power_Cycle_Count	   0x0032   099   099   000	Old_age   Always	   -	   115
177 Wear_Leveling_Count	 0x0013   099   099   000	Pre-fail  Always	   -	   5
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010	Pre-fail  Always	   -	   0
181 Program_Fail_Cnt_Total  0x0032   100   100   010	Old_age   Always	   -	   0
182 Erase_Fail_Count_Total  0x0032   100   100   010	Old_age   Always	   -	   0
183 Runtime_Bad_Block	   0x0013   100   100   010	Pre-fail  Always	   -	   0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000	Old_age   Always	   -	   0
190 Airflow_Temperature_Cel 0x0032   061   046   000	Old_age   Always	   -	   39
195 ECC_Error_Rate		  0x001a   200   200   000	Old_age   Always	   -	   0
199 CRC_Error_Count		 0x003e   100   100   000	Old_age   Always	   -	   0
235 POR_Recovery_Count	  0x0012   099   099   000	Old_age   Always	   -	   93
241 Total_LBAs_Written	  0x0032   099   099   000	Old_age   Always	   -	   6075744544

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description	Status				  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline	Completed without error	   00%	 16183		 -
# 2  Extended offline	Completed without error	   00%	 16159		 -
# 3  Extended offline	Completed without error	   00%	 16111		 -
# 4  Extended offline	Completed without error	   00%	 16063		 -
# 5  Extended offline	Completed without error	   00%	 16015		 -
# 6  Extended offline	Completed without error	   00%	 15991		 -
# 7  Extended offline	Completed without error	   00%	 15943		 -
# 8  Extended offline	Completed without error	   00%	 15895		 -
# 9  Extended offline	Completed without error	   00%	 15854		 -
#10  Extended offline	Completed without error	   00%	 15830		 -
#11  Extended offline	Completed without error	   00%	 15782		 -
#12  Extended offline	Completed without error	   00%	 15734		 -
#13  Extended offline	Completed without error	   00%	 15686		 -
#14  Extended offline	Completed without error	   00%	 15662		 -
#15  Extended offline	Completed without error	   00%	 15614		 -
#16  Extended offline	Completed without error	   00%	 15566		 -
#17  Extended offline	Completed without error	   00%	 15518		 -
#18  Extended offline	Completed without error	   00%	 15494		 -
#19  Extended offline	Completed without error	   00%	 15446		 -
#20  Extended offline	Completed without error	   00%	 15398		 -
#21  Extended offline	Completed without error	   00%	 15350		 -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
	1		0		0  Not_testing
	2		0		0  Not_testing
	3		0		0  Not_testing
	4		0		0  Not_testing
	5		0		0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

 
Last edited:

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Die S.M.A.R.T.-Werte bei 235 POR_Recovery_Count wirken auf mich auffällig. "A count of the number of sudden power off cases" sagt dieses Dokument von Samsung dazu. Plötzliche Unterbrechungen in der Stromversorgung?
 

s25a

Explorer
Joined
Jan 16, 2016
Messages
76
Hi,

hmm da hast du recht sieht so aus als hätte die eine Platte 97 und die andere 93 mal diesen "Sudden Power off" gehabt. Das ist natürlich nicht gut. Ich werde den Wert beobachten aber deshalb austauschen würde ich jetzt nicht. Eventuell spielt die Platte auch nicht mit dem Controller Vernünftig obwohl es ja eigentlich die PRO Platten von Samsung sind die für den Dauereinsatz gemacht sind.

Stromverkabelung wäre eine Möglichkeit wobei das eigentlich schon recht stabil verbaut ist alles und auch das Netzteil für solche Zwecke gebaut ist aber ich werde die Kiste nochmal genauer untersuchen.

Bzgl. dieses Traceback: "Soll ich hierzu noch etwas unternehmen?

VG S
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Setz das System noch mal neu und jungfräulich auf (bei FreeNAS Zeitaufwand von 10 - 15 min), und wenn der Fehler dann nicht mehr auftritt, war es das System und nicht deine Platten oder sonstige Hardware.

Ich beobachte öfter Probleme mit den Datenbanken nach Update, die verschwinden, wenn das System neu aufgesetzt wird. Export der Config, danach Reimport - das ist schnell und sauber.
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Bzgl. dieses Traceback: "Soll ich hierzu noch etwas unternehmen?

Wenn sich der Fehler reproduzieren lässt, dann verfasse am Besten hier einen einen Bugreport (in englischer Sprache). Dazu ist ein extra Account im Bugtracking-System erforderlich, separat vom Foren-Account. In diesem Bugreport sind der Traceback und die Umstände unter denen er auftritt anzugeben: Benutzeraktion(en), verwendete FreeNAS-Version, verwendete Hardware. Im Anschluss daran verlinke den Bugreport hier in diesem Thread.
 
Status
Not open for further replies.
Top