Я могу воспроизвести проблему последовательно (и быстро в считанные минуты), но я не могу найти никаких полезных сообщений в журналах. Эта проблема возникла с HBA RocketRaid 3740C и проприетарным драйвером nvidia, но теперь возникает с HBA LSI / Broadcom 9305-16i и драйверами nouveau. Я прошил карту Broadcom до последней прошивки и BIOS. Адаптер главной шины подключен к 9 дискам (из 10 RAID 6 будет работать с ухудшенным качеством до тех пор, пока не будет доставлен заменяющий диск). Сетевая карта - это Mellanox ConnectX3, работающая по оптоволоконной сети Ethernet 10G. Перед тем, как обменять карту RocketRaid, я помню, как проприетарный драйвер записывал в журнал ядра, говоря о получении 20 с чем-то, когда ожидалось 18 до сбоя. Я, кажется, больше не могу найти эти сообщения (я благодарен за указатели, как их найти!).
Действия по воспроизведению:
Запишите много чего на диск (скорость записи> 700 МБ / с). Например, откройте 3 сеанса scp с другого компьютера и запишите 3 файла параллельно со скоростью ~ 250 МБ / с каждый. Менее чем через пять минут экран Ubuntu зависает / блокируется, а ssh не отвечает. Аппаратный сброс кажется единственным вариантом. После чего mdadm считает, что массив грязный (хотя количество событий одинаково на всех дисках). mdadm assembly --force работает, но затем массив тратит день на повторную синхронизацию.
Я уже в своем уме.Я подумываю посмотреть, что будет с TrueNAS или Alma Linux. Немного интересуюсь и материнская плата (ASRock Tachi X570). Кажется, что система работает нормально при любой нагрузке, которая не связана с обширной записью в массив, включая ЦП (5700x) и интенсивный сетевой трафик (я могу многократно отправлять / получать 10 гигабайт сетевого трафика и получать пропускную способность ~ 70 Гбит / с).
Редактировать за комментарий от @heynnema
$ sudo free -h
total used free shared buff/cache available
Mem: 62Gi 12Gi 442Mi 372Mi 50Gi 49Gi
Swap: 975Mi 44Mi 931Mi
sudo sysctl vm.swappiness
vm.swappiness = 60
phil@omni:~$ sudo dmidecode -s bios-version
P4.30
Tasks: 428 total, 2 running, 426 sleeping, 0 stopped, 0 zombie
%Cpu(s): 34.8 us, 2.0 sy, 0.0 ni, 61.1 id, 0.0 wa, 0.0 hi, 2.0 si, 0.0 st
MiB Mem : 64242.9 total, 1192.4 free, 14388.3 used, 48662.3 buff/cache
MiB Swap: 976.0 total, 915.5 free, 60.5 used. 48780.6 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
15919 fooo 20 0 4083880 3.6g 12520 S 312.5 5.7 77:36.68 chia
15560 fooo 20 0 4083904 3.6g 12544 S 93.8 5.7 77:43.99 chia
4764 root 20 0 0 0 0 S 18.8 0.0 93:17.25 md0_raid6
1375 unifi 20 0 4028748 180588 21888 S 6.2 0.3 0:04.47 launcher
2154 unifi 20 0 1078716 132904 39776 S 6.2 0.2 0:25.11 mongod
4776 root 20 0 0 0 0 R 6.2 0.0 18:39.73 md0_resync
15419 root 20 0 0 0 0 I 6.2 0.0 0:01.07 kworker/0:1-events
1 root 20 0 168296 11728 7896 S 0.0 0.0 0:01.02 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:00.01 kthreadd
3 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 rcu_gp
4 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 rcu_par_gp
6 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 kworker/0:0H-kblockd
9 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 mm_percpu_wq
10 root 20 0 0 0 0 S 0.0 0.0 0:06.43 ksoftirqd/0
11 root 20 0 0 0 0 I 0.0 0.0 0:04.24 rcu_sched
12 root rt 0 0 0 0 S 0.0 0.0 0:00.02 migration/0
13 root -51 0 0 0 0 S 0.0 0.0 0:00.00 idle_inject/0
cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point> <type> <options> <dump> <pass>
/dev/mapper/vgubuntu-root / ext4 errors=remount-ro 0 1
# /boot/efi was on /dev/nvme0n1p1 during installation
UUID=3C3E-4180 /boot/efi vfat umask=0077 0 1
/dev/mapper/vgubuntu-swap_1 none swap sw 0 0
#192.168.1.192:/storage /storage nfs defaults 0 0
UUID=ddc550d2-7f93-4ecf-ac2e-d754c5eee6c9 /storage xfs defaults 0 0
UUID=BCB65C49B65C05F4 /var/ExChia1 ntfs defaults 0 0
UUID=3A10-3FE7 /var/ExChia4 exfat defaults 0 0
UUID=0EF0-7586 /var/ExChia5 exfat defaults 0 0
UUID=3837-E26A /var/ExChia6 exfat defaults 0 0
UUID=73338b75-d356-4e7f-9757-948f1078f04e /var/ExChia13 xfs defaults 0 0