Регулярное замораживание на Ryzen основывало систему, 16.04 LTS и более новое ядро

Я выполняю Ryzen 1700X ЦП и делаю вычисления. Время от времени системные катастрофические отказы, при выполнении 16.04 LTS (Ядро 4.10). Система не перезагружает. Нет никакого демонстрирующегося сигнала и клавиатура +, мышь не работает. Я не могу соединиться через SSH.

Я сохранил файлы kern.log и системного журнала при выполнении 16.04 LTS.

После того, чтобы читать несколько сообщений и чтения проблем о новой архитектуре и проблем, я решил попробовать более свежее ядро, и я переместился в 4.12.8 (датированный 16-го августа 2017) отсюда. Я использовал это сообщение на AskUbuntu для обновления ядра. Система загруженный штраф и мое приложение хорошо работала в течение ~10 часов теперь.

После системы приблизительно ~11 часов, разрушенной снова, с теми же сообщениями в syslog как замечено с ядром 4.10 на 16.04 LTS, данных ниже. {Ядро и файлы системного журнала, с 4,12 ядрами: kern.log с новым ядром и системный журнал с новым ядром}

Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord:   fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord:   temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord:   fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord:   temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

После последней строки в вышеупомянутом сообщении (в syslog) система заморозилась. Я должен был сбросить к перезагрузке снова. Это произошло снова с новым ядром.

Системные детали:

CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU 
Lubuntu 16.04 LTS, LXDE with Openbox

Может кто-то выручать меня.


Обновления

Приложение, которое я запускаю, не использует gcc, g++.

  1. lspci вывод здесь.

  2. dmesg | egrep 'drm|radeon' вывод здесь

  3. (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1) связан с sysstat пакет, который я удалил. Проблема все еще существует.

  4. glxinfo | grep -i open вывод для AMD RX 470 GPU дан ниже

    glxinfo | grep -i open 
    OpenGL vendor string: X.Org
    OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
    OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
    OpenGL core profile shading language version string: 4.50
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 3.0 Mesa 17.0.7
    OpenGL shading language version string: 1.30
    OpenGL context flags: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
    OpenGL ES profile extensions:
    
  5. Я подключил только один дисплей к этому компьютеру. Катастрофические отказы происходят только когда рабочий ЦП интенсивные задачи в течение длительного времени времени. (Я оставляю систему с ее дисплеем прочь, управляя им, проверяя его от соединения SSH. Приблизительно после 5-6 часов, соединение SSH становится недоступным. После возвращения к машине движущаяся мышь и клавиатура не делают ничего для возвращения дисплея. Жесткая перезагрузка требуется).

  6. Чтобы проверить, ли это из-за GPU или нет, я изменился на nVidia GTX 1080, для которого я установил собственный драйвер и все еще при подобной загрузке, системных замораживаниях. Я возвратил к AMD GPU, и там проблема сохраняется. Я исключаю это поведение из-за типа сборки GPU. Поскольку Nvidia чешет glxinfo | grep -i open вывод следует;

    OpenGL vendor string: NVIDIA Corporation
    OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
    OpenGL core profile version string: 4.5.0 NVIDIA 384.81
    OpenGL core profile shading language version string: 4.50 NVIDIA
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 4.5.0 NVIDIA 384.81
    OpenGL shading language version string: 4.50 NVIDIA
    OpenGL context flags: (none)
    OpenGL profile mask: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
    OpenGL ES profile extensions:
    
    1. Обновленный BIOS к версии 3401 (08.12.2017, AGESA 1071) и проблема сохраняется.
6
задан 18 December 2017 в 05:11

2 ответа

У меня был вид той же проблемы как Вы. Ryzen 1800x

я предлагаю Вас:

Повторно включают SMT - Никакая потребность отключить его.

Возвращаются к нормальному текущему ядру для Ubuntu 16.04, которая в настоящее время является 4.4.0-93

, Отключают все опции Global C-State "экономии электроэнергии" в BIOS.

Отключают прохладный n тихая опция также.

Увеличение напряжение Вашего SoC к 1,1 для устойчивости, это рекомендуется. Как указано в этом видео: https://www.hardocp.com/news/2017/05/01/how_to_stabilize_your_amd_ryzen_memory_cpu_overclocking_attempts

вышеупомянутая рекомендация действительна для того, если Вы подчеркиваете ЦП или если Вы бездействуете.

Загрузка последние Драйверы AMD на веб-сайте AMD для Вашей карты. Можно также попробовать последние драйверы с открытым исходным кодом через: "Дополнительные Драйверы" в соответствии с "программным обеспечением & Обновления". Я рекомендую эту опцию сначала.

Прежде, чем сделать вышеупомянутое, просто сбрасывает BIOS, чтобы принять значение по умолчанию и проверить, существует ли более новая доступная версия.

1
ответ дан 23 November 2019 в 07:54

У меня была та же проблема... Что я сделал для решения этой проблемы:

Производительность:

sudo cpufreq-set -r -g performance

Набор на начальной загрузке:

sudo apt-get install cpufrequtils
echo 'GOVERNOR="performance"' | sudo tee /etc/default/cpufrequtils
sudo systemctl disable ondemand
4
ответ дан 23 November 2019 в 07:54

Другие вопросы по тегам:

Похожие вопросы: