Сбой, перезапуск под нагрузкой с шифрованием pool (вер. 12 U2)

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
Тестовый стенд из 2х серверов:

  1. Windows-сервер на платформе Supermicro X9 какая-то, это не столь важно. Массив из ССД. Важно - сеть QLogic QLE8152 (10GbE), родные драйвера под эту ОС
  2. Сервер Dell PowerEdge R610, камни E5620 x2, 32Gb, HBA H200 IT (SYS SSD Micron 120Gb, DATA SSD Samsung 863 960Gb x3), сеть Mellanox ConnectX-2 10GbE
вроде основное всё дал

Сервер 2 - платформа для TrueNAS 12, задача - создание шифр. хранилища, с отдачей диск. ресурса по iSCSI в сервер СУБД SQL Server (в данном случае сервер 1)

На сервере 2:
- установлен TrueNAS 12 U2 на SSD120 Gb, из 3 SSD собран пул RAID-Z с шифрованием. RecordSize 128Mb (дефолт)
- создал zVol на 80% объема пула, в пуле информация - 1.34 TiB (80%) Used | 351.35 GiB Free. RecordSize zVol 16Mb (дефолт)
- zVol отдан по iSCSI на сервер 1, там принят виндовым инициатором iSCSI, MTU 9014

iPerf
 

Attachments

  • 2021-02-13.png
    2021-02-13.png
    13.2 KB · Views: 109

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
как бы вроде все красиво, в одну сторону 9,8 Gbit/s, в другую 7,5 Gbit/s, все всех устраивает
при копировании файла БД (размер 480 Гб) с виндо-сервера 1 на truenas-сервер 2 произошел сбой и неконтролируемая перезагрузка сервера, при выполнении примерно на 60-70%

занялся тестированием/выуживанием проблемы
делал копирование в несколько потоков больших файлов с запуском scrub на принимающем пуле (пул шифрованный)
сбои с перезапусками сервера постоянны
оттестировал память - все ОК
заменил HBA на такую же - сбои с перезапусками
взял физ. другой такой же сервер 2, перебросил все SSD, HBA - сбои с перезапусками

скрины того что получилось отснять на консоли в момент до перезагрузки, либо в момент разрыва соединений и прерывания операций
 

Attachments

  • 0-02-0a-13bcd6a5a6a3c3aef92c8fbf82b7d84129b175fdb2b61458156c4ee03ea374bb_e3a9ffd9.jpg
    0-02-0a-13bcd6a5a6a3c3aef92c8fbf82b7d84129b175fdb2b61458156c4ee03ea374bb_e3a9ffd9.jpg
    338.3 KB · Views: 119
  • 0-02-05-f910e012e327c5b546404f5e2098906ec1140d124a64348a53c2a7161c733ab1_1ca2dc8c.jpg
    0-02-05-f910e012e327c5b546404f5e2098906ec1140d124a64348a53c2a7161c733ab1_1ca2dc8c.jpg
    515.3 KB · Views: 124

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
Какие мысли ?

Увеличение памяти ? переделка RecordSize , оптимизация ?
 

chs

Guru
Joined
Apr 18, 2017
Messages
500
Смена сетевух - для начала (или драйверов на них). Лучше на Intel.
 

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
ЭТОТ ВАРИАНТ РЕШЕНИЯ В ДАННОМ СЛУЧАЕ НЕ РАССМАТРИВАТСЯ :smile:

Выполнено:

- 3 SSD пул RAID-Z с шифрованием, пересоздан. RecordSize 256KiB.
- пересоздан zVol на 80% объема пула, в пуле информация - 1.34 TiB (80%) Used | 351.35 GiB Free. RecordSize zVol 32KiB.
- zVol отдан по iSCSI на сервер 1, там принят виндовым инициатором iSCSI, настройка iSCSI Extent Logical Block Size 4096, передача размера не отключена
- сеть на обоих сторонах выставлена MTU 1514
- на сервере 2 TrueNAS-системы память добавлена до 48GB

тестирование в течении почти суток, сбоев и проблем нет
все корректировки делались по изучению на этом форуме смежных тем

Все ли оптимально ?
 
Last edited:

chs

Guru
Joined
Apr 18, 2017
Messages
500
Хммм ... Т.е. MTU ломал всё ?
Если выставить на обоих концах MTU по 9000 - будет работать ?
 

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
настройка iSCSI Extent Logical Block Size 4096, передача размера не отключена
не, SQL Server сказал - я не понимаю ваши zVol 32KiB
нужно отключать передачу размера
 

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
Если выставить на обоих концах MTU по 9000 - будет работать ?
собственно говоря тут же в смежных темах вычитано, что отключайте JamboFrame, только одни проблемы
я как отключил сбоить стало реже... больше не возвращался на проверку этого
 

chs

Guru
Joined
Apr 18, 2017
Messages
500
собственно говоря тут же в смежных темах вычитано, что отключайте JamboFrame, только одни проблемы
я как отключил сбоить стало реже... больше не возвращался на проверку этого
Возможно ... Но при включённых MTU 9000 у меня бакапы на FreeNAS проходят раза в 3 быстрее.
Почему и спросил. Интересно стало - такая же фигня с MS SQL ?
 

Maksim Shulga

Dabbler
Joined
Feb 28, 2020
Messages
45
бекап - это зачастую потоковая передача/операции
а СУБД SQL работает блоками 64Кб, и рандомно... т.е. совсем другой тип нагрузки
 
Top