SOLVED System hängt nach viel Trafik

Mario1971 · Jun 21, 2020

Hallo in die Runde,

ich muss mich schon wieder an Euch wenden, ich finde keine wirklichen "Einhängepunkt" für mein Problem.
Mein System läuft seit Mai 2019 sehr gut. Ich habe div. Jails und 3 VM laufen.
Nachdem der Plattzenplatz zu wenig wurde, habe ich einen LSISAS2308 eingebaut. An diesem hängen nun 2x 3TB WD RED.
Diese zwei sind mit 4 weiteren WD RED in einem POOL (tank0) als 2x2x3 verbunden:
pool: tank0
state: ONLINE
scan: scrub repaired 0 in 0 days 06:28:11 with 0 errors on Sun Jun 21 06:28:12 2020
config:

NAME STATE READ WRITE CKSUM
tank0 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
gptid/5647a612-a59a-11e9-97b1-6cb3111c135c ONLINE 0 0 0
gptid/1ead0b20-a62c-11e9-aee6-6cb3111c135c ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
gptid/8df3a115-904a-11e9-8858-6cb3111c135c ONLINE 0 0 0
gptid/91690757-904a-11e9-8858-6cb3111c135c ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
gptid/1feaefee-b2e5-11ea-b199-4c52622ff34a ONLINE 0 0 0
gptid/2004ac61-b2e5-11ea-b199-4c52622ff34a ONLINE 0 0 0

errors: No known data errors

So weit so gut. Wenn ich nun sehr viel Daten über die Console von einem Verzeichnis in ein anderes kopiere, dann wird das System
nach und nach immer langsamer. CPU ist aber weit weg von 50% Last!
Auch über div. SMB Freigaben läuft es zuerst rel. schnell, dann wird der Durchsatz langsamer und stockt sehr oft.
Wenn es ganz dumm läuft, stürzt FreeNAS-11.3-U3.2 komplett ab. Heute musste ich sogar in den Keller und den Rechner hart ausschalten und
neu starten. Meine erste Idee ist, da mirror-2 über den LSI angeschlossen ist, es hier zu Problemen kommt, kann sowas passieren?
Welches LOG-File würde mir evtl. weiterhelfen? Bis jetzt habe ich in diesen nichts gefunden.
Die Platten sind max. 1Jahr alt und haben im SMART keine Auffälligkeiten.
Was noch auffällt, die Schreibgewschwindigkeit schwankt doch sehr, wenn ich ein:
fio --rw=write --name=benchmark1 --numjobs=1 --size=54G auf tank0 mache, dann schwankt der Speed von 25MiB/s bis 250Mib/s
Ergebnis:
benchmark1: (g=0): rw=write, bs=(R) 4096B-4096B, (W) 4096B-4096B, (T) 4096B-4096B, ioengine=psync, iodepth=1
fio-3.16
Starting 1 process
benchmark1: Laying out IO file (1 file / 55296MiB)
Jobs: 1 (f=1): [W(1)][100.0%][w=233MiB/s][w=59.6k IOPS][eta 00m:00s]
benchmark1: (groupid=0, jobs=1): err= 0: pid=3547: Sun Jun 21 20:27:06 2020
write: IOPS=57.0k, BW=226MiB/s (237MB/s)(54.0GiB/244211msec)
clat (usec): min=3, max=425158, avg=16.97, stdev=398.79
lat (usec): min=3, max=425159, avg=17.01, stdev=398.79
clat percentiles (usec):
| 1.00th=[ 4], 5.00th=[ 4], 10.00th=[ 4], 20.00th=[ 5],
| 30.00th=[ 5], 40.00th=[ 5], 50.00th=[ 5], 60.00th=[ 5],
| 70.00th=[ 6], 80.00th=[ 6], 90.00th=[ 93], 95.00th=[ 100],
| 99.00th=[ 103], 99.50th=[ 120], 99.90th=[ 229], 99.95th=[ 355],
| 99.99th=[ 914]
bw ( KiB/s): min= 7532, max=937013, per=99.70%, avg=231170.33, stdev=95931.02, samples=488
iops : min= 1883, max=234253, avg=57792.23, stdev=23982.77, samples=488
lat (usec) : 4=15.88%, 10=70.82%, 20=0.99%, 50=0.88%, 100=6.33%
lat (usec) : 250=5.02%, 500=0.06%, 750=0.01%, 1000=0.01%
lat (msec) : 2=0.01%, 4=0.01%, 10=0.01%, 20=0.01%, 50=0.01%
lat (msec) : 100=0.01%, 250=0.01%, 500=0.01%
cpu : usr=2.45%, sys=27.44%, ctx=2258362, majf=0, minf=0
IO depths : 1=100.0%, 2=0.0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0.0%
submit : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
complete : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
issued rwts: total=0,14155776,0,0 short=0,0,0,0 dropped=0,0,0,0
latency : target=0, window=0, percentile=100.00%, depth=1

Run status group 0 (all jobs):
WRITE: bw=226MiB/s (237MB/s), 226MiB/s-226MiB/s (237MB/s-237MB/s), io=54.0GiB (57.0GB), run=244211-244211msec

Wenn mir jemand einen Weg aufzeigen kann wo ich suchen darf, dann versuche ich das

Danke schonmal!
VG Mario

Patrick M. Hausen · Jun 21, 2020

1. LSI auf eine aktuelle IT-Firmware flashen, falls nicht schon geschehen.
2. Poste bitte mal die genauen Modellbezeichnungen Deiner Platten.

Mario1971 · Jun 21, 2020

ACHTUNG viel Text :p

ada0: <WDC WD40EFRX-68N32N0 82.00A82> ACS-3 ATA SATA 3.x device
ada0: Serial Number WD-WCC7K2DP9T6D
ada0: 600.000MB/s transfers (SATA 3.x, UDMA6, PIO 8192bytes)
ada0: Command Queueing enabled
ada0: 3815447MB (7814037168 512 byte sectors)
ada0: quirks=0x1<4K>

ada1: <WDC WD40EFRX-68N32N0 82.00A82> ACS-3 ATA SATA 3.x device
ada1: Serial Number WD-WCC7K2DP9LXP
ada1: 600.000MB/s transfers (SATA 3.x, UDMA6, PIO 8192bytes)
ada1: Command Queueing enabled
ada1: 3815447MB (7814037168 512 byte sectors)
ada1: quirks=0x1<4K>

ada2 at ahcich2 bus 0 scbus2 target 0 lun 0
ada2: <WDC WD30EFRX-68EUZN0 82.00A82> ACS-2 ATA SATA 3.x device
ada2: Serial Number WD-WCC4N6EZX0TF
ada2: 600.000MB/s transfers (SATA 3.x, UDMA6, PIO 8192bytes)
ada2: Command Queueing enabled
ada2: 2861588MB (5860533168 512 byte sectors)
ada2: quirks=0x1<4K>

ada3: <WDC WD30EFRX-68EUZN0 82.00A82> ACS-2 ATA SATA 3.x device
ada3: Serial Number WD-WCC4N0RXH8LV
ada3: 600.000MB/s transfers (SATA 3.x, UDMA6, PIO 8192bytes)
ada3: Command Queueing enabled
ada3: 2861588MB (5860533168 512 byte sectors)
ada3: quirks=0x1<4K>

Diese zwei hängen am LSI.

da0 at mps0 bus 0 scbus7 target 3 lun 0
da0: <ATA WDC WD30EFRX-68E 0A82> Fixed Direct Access SPC-4 SCSI device
da0: Serial Number WD-WCC4N3ZKJCS0
da0: 600.000MB/s transfers
da0: Command Queueing enabled
da0: 2861588MB (5860533168 512 byte sectors)
da0: quirks=0x8<4K>

da1 at mps0 bus 0 scbus7 target 4 lun 0
da1: <ATA WDC WD30EFRX-68E 0A82> Fixed Direct Access SPC-4 SCSI device
da1: Serial Number WD-WCC4N5ADFZ3P
da1: 600.000MB/s transfers
da1: Command Queueing enabled
da1: 2861588MB (5860533168 512 byte sectors)
da1: quirks=0x8<4K>

Der LSI sieht so aus:
mps0: <Avago Technologies (LSI) SAS2308> port 0x3000-0x30ff mem 0xa1140000-0xa114ffff,0xa1100000-0xa113ffff at device 0.0 on pci4
mps0: Firmware: 14.00.00.00, Driver: 21.02.00.00-fbsd
mps0: IOCCapabilities: 1a85c<ScsiTaskFull,DiagTrace,SnapBuf,EEDP,TransRetry,EventReplay,MSIXIndex,HostDisc>

Ich habe eben noch 50GB von tank0 auf ein Pool mit 2 Mirror NVMe kopiert, auch hier nur 70-90MB/s.
Die Dateien dann innerhalb der NVMe kopiert = 2GB/s !!!

Danke für die schnelle Unterstüzung! @Patrick M. Hausen

Patrick M. Hausen · Jun 21, 2020

EFRX sollten ok sein, wenn ich mich nicht irre. Guck mal in den Faden mit der Liste der SMR Drives. SMR willst Du nicht.
Deine Controller-Firmware ist ziemlich veraltet, im Prinzip sollte die dieselbe Version haben wie der FreeBSD-Treiber, also 21. IT-Modus falls noch nicht geschehen, auf jeden Fall nachholen. Alles zum Flashen findest Du auch hier im Forum.

Mario1971 · Jun 21, 2020

Patrick M. Hausen said:
EFRX sollten ok sein, wenn ich mich nicht irre. Guck mal in den Faden mit der Liste der SMR Drives. SMR willst Du nicht.
Deine Controller-Firmware ist ziemlich veraltet, im Prinzip sollte die dieselbe Version haben wie der FreeBSD-Treiber, also 21. IT-Modus falls noch nicht geschehen, auf jeden Fall nachholen. Alles zum Flashen findest Du auch hier im Forum.

Danke!
Dann gehe ich gleich mal auf die Suche nach der Software. Hoffe das geht direkt unter FreeBSD ;)

Patrick M. Hausen · Jun 21, 2020

Nö, eher DOS auf USB-Stick, boot, etc. pp.

Mario1971 · Jun 21, 2020

Patrick M. Hausen said:
Nö, eher DOS auf USB-Stick, boot, etc. pp.

Nun habe ich diese Version aufgespielt.

mps0: <Avago Technologies (LSI) SAS2308> port 0x3000-0x30ff mem 0xa1140000-0xa114ffff,0xa1100000-0xa113ffff at device 0.0 on pci4
mps0: Firmware: 20.00.07.00, Driver: 21.02.00.00-fbsd
mps0: IOCCapabilities: 5a85c<ScsiTaskFull,DiagTrace,SnapBuf,EEDP,TransRetry,EventReplay,MSIXIndex,HostDisc>

Was neueres scheint es nicht zu geben. Aber was soll ich sagen, es sieht gut aus!
Kopieren geht nun mit 200MB/s beim schreiben und 300MB/s beim lesen.
Diese Pause nach 40GB ist auch nicht mehr da, läuft ziemlich konstant.

Was mir nun auffällt, das Löschen von Dateien dauert ewig. Habe ich vorher nicht so drauf geachtet. Norma bei ZFS?

Sonst bin ich erstmal wieder glücklich :)
Danke nochmal für die Unterstützung!

VG Mario

Patrick M. Hausen · Jun 21, 2020

Wenn's nix neueres gibt, dann passt das wohl ;) Hast Du drauf geachtet, die IT und nicht die IR Version zu nehmen?

Schön, dass es nun besser läuft.
Gruß, Patrick

Mario1971 · Jun 21, 2020

Patrick M. Hausen said:
Wenn's nix neueres gibt, dann passt das wohl ;) Hast Du drauf geachtet, die IT und nicht die IR Version zu nehmen?

Schön, dass es nun besser läuft.
Gruß, Patrick

Jep ist die IT Version.
Nun muss ich noch mal herausbekommen, warum das löschen der Dateien so lange brauch - 25000Dateien gefühlt 10Minuten...

VG Mario

Patrick M. Hausen · Jun 21, 2020

Mit rm -r? Völlig normal. Mit zfs destroy? Eher nicht ;)

Important Announcement for the TrueNAS Community.

SOLVED System hängt nach viel Trafik

Mario1971

Dabbler

Patrick M. Hausen

Hall of Famer

Mario1971

Dabbler

Patrick M. Hausen

Hall of Famer

Mario1971

Dabbler

Patrick M. Hausen

Hall of Famer

Mario1971

Dabbler

Patrick M. Hausen

Hall of Famer

Mario1971

Dabbler

Patrick M. Hausen

Hall of Famer

Similar threads

Important Announcement for the TrueNAS Community.

SOLVED System hängt nach viel Trafik

Dabbler

Hall of Famer

Dabbler

Hall of Famer

Dabbler

Hall of Famer

Dabbler

Hall of Famer

Dabbler

Hall of Famer

Important Announcement for the TrueNAS Community.

Related topics on forums.truenas.com for thread: "System hängt nach viel Trafik"

Similar threads