20.04.2 полностью блокируется при записи в массив RAID 6

Я могу воспроизвести проблему последовательно (и быстро в считанные минуты), но я не могу найти никаких полезных сообщений в журналах. Эта проблема возникла с HBA RocketRaid 3740C и проприетарным драйвером nvidia, но теперь возникает с HBA LSI / Broadcom 9305-16i и драйверами nouveau. Я прошил карту Broadcom до последней прошивки и BIOS. Адаптер главной шины подключен к 9 дискам (из 10 RAID 6 будет работать с ухудшенным качеством до тех пор, пока не будет доставлен заменяющий диск). Сетевая карта - это Mellanox ConnectX3, работающая по оптоволоконной сети Ethernet 10G. Перед тем, как обменять карту RocketRaid, я помню, как проприетарный драйвер записывал в журнал ядра, говоря о получении 20 с чем-то, когда ожидалось 18 до сбоя. Я, кажется, больше не могу найти эти сообщения (я благодарен за указатели, как их найти!).

Действия по воспроизведению:

Запишите много чего на диск (скорость записи> 700 МБ / с). Например, откройте 3 сеанса scp с другого компьютера и запишите 3 файла параллельно со скоростью ~ 250 МБ / с каждый. Менее чем через пять минут экран Ubuntu зависает / блокируется, а ssh не отвечает. Аппаратный сброс кажется единственным вариантом. После чего mdadm считает, что массив грязный (хотя количество событий одинаково на всех дисках). mdadm assembly --force работает, но затем массив тратит день на повторную синхронизацию.

Я уже в своем уме.Я подумываю посмотреть, что будет с TrueNAS или Alma Linux. Немного интересуюсь и материнская плата (ASRock Tachi X570). Кажется, что система работает нормально при любой нагрузке, которая не связана с обширной записью в массив, включая ЦП (5700x) и интенсивный сетевой трафик (я могу многократно отправлять / получать 10 гигабайт сетевого трафика и получать пропускную способность ~ 70 Гбит / с).

Редактировать за комментарий от @heynnema

$ sudo free -h
              total        used        free      shared  buff/cache   available
Mem:           62Gi        12Gi       442Mi       372Mi        50Gi        49Gi
Swap:         975Mi        44Mi       931Mi
sudo sysctl vm.swappiness 
vm.swappiness = 60
phil@omni:~$ sudo dmidecode -s bios-version
P4.30
Tasks: 428 total,   2 running, 426 sleeping,   0 stopped,   0 zombie
%Cpu(s): 34.8 us,  2.0 sy,  0.0 ni, 61.1 id,  0.0 wa,  0.0 hi,  2.0 si,  0.0 st
MiB Mem :  64242.9 total,   1192.4 free,  14388.3 used,  48662.3 buff/cache
MiB Swap:    976.0 total,    915.5 free,     60.5 used.  48780.6 avail Mem 

    PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                                                  
  15919 fooo      20   0 4083880   3.6g  12520 S 312.5   5.7  77:36.68 chia                                                                                                                                                                     
  15560 fooo      20   0 4083904   3.6g  12544 S  93.8   5.7  77:43.99 chia                                                                                                                                                                     
   4764 root      20   0       0      0      0 S  18.8   0.0  93:17.25 md0_raid6                                                                                                                                                                
   1375 unifi     20   0 4028748 180588  21888 S   6.2   0.3   0:04.47 launcher                                                                                                                                                                 
   2154 unifi     20   0 1078716 132904  39776 S   6.2   0.2   0:25.11 mongod                                                                                                                                                                   
   4776 root      20   0       0      0      0 R   6.2   0.0  18:39.73 md0_resync                                                                                                                                                               
  15419 root      20   0       0      0      0 I   6.2   0.0   0:01.07 kworker/0:1-events                                                                                                                                                       
      1 root      20   0  168296  11728   7896 S   0.0   0.0   0:01.02 systemd                                                                                                                                                                  
      2 root      20   0       0      0      0 S   0.0   0.0   0:00.01 kthreadd                                                                                                                                                                 
      3 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_gp                                                                                                                                                                   
      4 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_par_gp                                                                                                                                                               
      6 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/0:0H-kblockd                                                                                                                                                     
      9 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 mm_percpu_wq                                                                                                                                                             
     10 root      20   0       0      0      0 S   0.0   0.0   0:06.43 ksoftirqd/0                                                                                                                                                              
     11 root      20   0       0      0      0 I   0.0   0.0   0:04.24 rcu_sched                                                                                                                                                                
     12 root      rt   0       0      0      0 S   0.0   0.0   0:00.02 migration/0                                                                                                                                                              
     13 root     -51   0       0      0      0 S   0.0   0.0   0:00.00 idle_inject/0 
cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
/dev/mapper/vgubuntu-root /               ext4    errors=remount-ro 0       1
# /boot/efi was on /dev/nvme0n1p1 during installation
UUID=3C3E-4180  /boot/efi       vfat    umask=0077      0       1
/dev/mapper/vgubuntu-swap_1 none            swap    sw              0       0
#192.168.1.192:/storage     /storage  nfs  defaults 0 0 
UUID=ddc550d2-7f93-4ecf-ac2e-d754c5eee6c9 /storage xfs defaults 0 0 
UUID=BCB65C49B65C05F4 /var/ExChia1 ntfs defaults 0 0
UUID=3A10-3FE7 /var/ExChia4 exfat defaults 0 0
UUID=0EF0-7586 /var/ExChia5 exfat defaults 0 0 
UUID=3837-E26A /var/ExChia6 exfat defaults 0 0
UUID=73338b75-d356-4e7f-9757-948f1078f04e /var/ExChia13 xfs defaults 0 0
0
задан 12 June 2021 в 04:48

0 ответов

Другие вопросы по тегам:

Похожие вопросы: