Ubuntu Server 20.04 случайно падает

По крайней мере, один раз в день мой домашний сервер падает. Это недавняя сборка (16.07.2020, со всем новым оборудованием и т. Д.).

Характеристики машины:

  • AMD Ryzen 5 3400G с Radeon Vega Graphics
  • B450 AORUS M
  • 32 ГБ ОЗУ DIMM RAM DDR4
  • 1 ТБ SSD M2
  • 2 6 ТБ HDD
  • 1 ТБ HDD
  • Ubuntu 20.04.1 LTS

В настоящее время я использую APT следующих приложений

  • Roon Server
  • Docker ( версия моментального снимка была удалена)
  • Samba
  • Restic для резервных копий

На Docker я использую

  • PiHole (я отключил dnsresovler, поэтому проблема с портом там отсутствует)
  • Portainer
  • Plex
  • Resilio Sync

Я не могу найти много в журналах, но наткнулся на следующий раздел журнала, который пробудил во мне интерес после сбоя системы s сегодня днем. Безразлично» Я не могу много рассказать, но, может быть, кто-то здесь может помочь мне двигаться в правильном направлении.

По какой-то причине я не могу скопировать или вставить фактический журнал, чтобы представить его таким, каким я его вижу. Я включил снимок экрана. Короче говоря, похоже, что он что-то делает с докером, затем я получаю кучу (плохих мест в памяти?) `<0x00> '

enter image description here

. После сбоя у меня нет возможности взаимодействовать с системой. На экране отображается некоторая информация, которую я не знаю, что это значит или как получить эти данные. Может быть, если он снова выйдет из строя, я сделаю фото с моего телефона.

Я не эксперт по linux / ubuntu (но довольно хорошо разбираюсь в Windows) и учусь так же, как и в прошлый четверг, когда я собрал и начал установку Ubuntu.

То, что я до сих пор пробовал.

  • Я удостоверился, что есть свободное место на диске. Ни один из дисков не заполнен даже удаленно (используется 30% -40%, а объем оперативной памяти показывает 32 ГБ), а когда он недавно вышел из строя, он почти не загружался. Я просто транслировал роун в другой комнате.
  • Докер, кажется, работает, как и ожидалось. Я случайно установил Docker через apt vs snap, что вызывало некоторые проблемы, но я, кажется, исправил (как мне кажется) исправление, так как я удалил как snap, так и apt версию и убедился, что все оставшиеся папки и т. Д. Были удалены.
  • Bios показывает все память загружена и распознана.
  • fdisk -l не показывает странности, и все диски выглядят правильными по размеру и правильному разбиению.
  • free -h показывает всего 4Gi для файла подкачки, но использует 12mi, а ОЗУ показывает Всего 29 Gi и доступно 28Gi.
  • dmesg показывает, что эта ошибка появляется довольно много раз. Поиск не приносит много удачи.
    [ 2328.925902] BUG: unable to handle page fault for address: 0000000000c045c7
    [ 2328.925905] #PF: supervisor write access in kernel mode
    [ 2328.929589] RIP: 0010:fsnotify+0x63/0x3d0
    [ 2328.933164] #PF: error_code(0x0002) - not-present page

Любая помощь / идеи, которые могут у кого-либо возникнуть, очень ценятся, это несколько раздражает.

Редактировать: Согласно предложениям @heynnema

sudo dmidecode -s bios-version возвращает F50

] sysctl vm.swappiness возвращает vm.swapiness = 60

sudo lshw -C memory :

*-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: F50
       date: 11/27/2019
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: 9
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:1
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 1
          serial: 00000000
          slot: DIMM 1
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:3
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 3
          serial: 00000000
          slot: DIMM 1
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
  *-cache:0
       description: L1 cache
       physical id: b
       slot: L1 - Cache
       size: 384KiB
       capacity: 384KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: c
       slot: L2 - Cache
       size: 2MiB
       capacity: 2MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: d
       slot: L3 - Cache
       size: 4MiB
       capacity: 4MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3
0
задан 28 July 2020 в 05:01

1 ответ

У вас возникают ошибки при сбое страницы.

BIOS

Gigabyte B450 AORUS M

У вас есть версия BIOS F50.

Доступен более новый BIOS, версия F51f, и ее можно скачать здесь .

Обновление видео доступно здесь .

Примечание: Подтвердите, что у меня есть правильная веб-страница для вашей модели #.

Примечание: делайте хорошие резервные копии перед обновлением BIOS.

memtest

Перейдите на https://www.memtest86.com/ и загрузите / запустите бесплатный memtest для проверь свою память Получите хотя бы один полный проход из всех 4/4 тестов, чтобы подтвердить хорошую память. Это может занять много часов.

Обновление № 1:

memtest не выполнен. Сначала мы обновим BIOS, затем проведем повторное тестирование с помощью memtest и устраним неполадки с памятью, если ошибки все еще будут возникать.

Обновление № 2:

enter image description here enter image description here enter image description here

Обновление № 3:

После обновления BIOS, memtest все еще не удался. Мы протестировали различные пары модулей DIMM в слотах 1 и 2, и все они прошли мемтест . Мы считаем, что был DIMM, который не был должным образом установлен в своем гнезде. После замены всех модулей DIMM в их слоты мы запускаем memtest для подтверждения.

0
ответ дан 30 July 2020 в 22:02

Другие вопросы по тегам:

Похожие вопросы: