То, что является оптимальным, должно - собираться для поиска и устранения неисправностей самозавершения работы ноутбука (вероятно, из-за перегрева)

Question 1

Предпосылка

Я недавно обновил от 17,04 до 17,10.

У меня есть следующие видеокарты и процессор (на ноутбуке):

00:02.0 VGA совместимый контроллер: Устройство Intel Corporation 591b (газуют 04),

01:00.0 VGA совместимый контроллер: NVIDIA Corporation GP106M [GeForce GTX 1060, Мобильный] (газуют на a1),

Intel Core i7 Quad Core Processor 7700HQ (2.8 ГГц, Турбо на 3.8 ГГц)

В 17,04, я использовал nvidia-375 драйвер (создают 66, если не изменяет память).

После обновления я заметил, что мои паровые игры будут работать очень плохо.

В некоторых случаях некоторые игры по-видимому перегрели бы машину до такой степени, что она автоматически выключила.

Я добавил graphics-drivers/ppa/ubuntu artful репозиторий и переключенный на позже nvidia-387 драйвер, который, кажется, улучшает производительность к подобным уровням как до моего обновления Ubuntu.

Однако некоторые игры все еще, кажется, перегревают мою машину и приводят к трудному автоматическому завершению работы.

Я попытался исследовать журналы в /var/log немного, но я не достаточно хорошо осведомлен для выведения, какая информация релевантна и который не является, того, существует ли на самом деле релевантная информация в журналах в таких случаях.

Я сделал начальную должную осмотрительность, т.е. проверяющий на пыль и что вентиляторы работают (никакая пыль, оба вентилятора работают).

Фактический вопрос

Я не спрашиваю, "как зафиксировать это и заставить мои игры работать", я понимаю, как трудно, который должен был бы ответить, учитывая контекст.

Однако я хотел бы понять то, что является рекомендуемым, должен - собираться для такой ситуации, так, чтобы я мог или попытаться заняться расследованиями самостоятельно, задать более конкретный вопрос здесь, или (вероятно, более подходящий) передают ту информацию игровому поставщику и запросу на поддержку.

Как упомянуто, я сильно подозреваю, что это связано с драйверами видеокарты или перегревом ЦП.

Обновление 1

Я попробовал и копировал проблему с несколькими дополнительными версиями драйвера Nvidia. Вот список, который я попробовал до сих пор, который все копируют проблему:

375.66 - используемый для работы хорошо в 17,04, отстающая графика в 17,10 и копирует автозавершения работы
384.90 - не попробованный в 17,04, отстающая графика в 17,10 (но лучше, чем 375,66), копирует автозавершения работы
387.12 - по-видимому никакое различие по сравнению с 384,90 в контексте

Я также заметил, что все игры, требующие скорости процессора, которой будет нужно турбо на моем процессоре, копируют проблему (некоторые, кажется, занимают больше времени).

Это последнее открытие интересно, потому что это означает, что завершение работы, вероятно, инициировано после определенного времени ЦП находится в турбо режиме и не мог бы быть связан с GPU, в конце концов.

Я держал для "temperat*" в /var/log, но единственные записи, соответствующие, от repowerd и в то время как я действительно не понимаю то, что они имеют в виду, они показывают a temperature=0.00, который я подозреваю, что могу игнорировать как шум в контексте.

Я собираюсь измениться thermald вход уровня и видит, существует ли что-либо соответствующее, после того как проблема копирует - обновит позже.

Обновление 2

Я копировал проблему после установки следующих процессов отладки:

[как администратор] watch -n10 "sensors >> ~/sensors.log"
[как администратор] watch -n10 "hddtemp /dev/sda1 >> ~/hddtemp.log"

Конец тех файлов после запуска машины снова указывает на следующие, на вид приемлемые температуры:

/dev/sda1: ST1000LX015-1U7172: 37°C

iwlwifi-virtual-0
Adapter: Virtual device
temp1:        +54.0°C  

acpitz-virtual-0
Adapter: Virtual device
temp1:        +79.0°C  

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +77.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +72.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +75.0°C  (high = +100.0°C, crit = +100.0°C)

pch_skylake-virtual-0
Adapter: Virtual device
temp1:        +75.5°C `

Я держал thermald журналы от syslogи переданный по каналу их в другой файл журнала для удобочитаемости.

На моем уровне отладки thermald журналы, я попытался искать "общие" шаблоны (я понятия не имею, как действительно считать ту информацию), в диапазоне времени возникновения.

Некоторые записи не произошли близко к возникновению завершения работы.

Включенным ключевым словам моего поиска нравится, "предупреждают", "ошибка", "сбой", "очень важный", "недопустимый".

Вот единственные результаты, которые я могу совместно использовать - все повторение записей, не обязательно в этом порядке...

sysfs read failed constraint_0_max_power_uw - произошедший прежде и близко к завершению работы
dram:powercap RAPL invalid max power limit range
failed to open /dev/acpi_thermal_rel
read_trip_points 1/trip_point_0_type:critical
index 0: type:critical temp:115000 hyst:1 zone id:1 sensor id:1 cdev size:0
Buggy max temp: to close to critical 90000
Core temp DTS :critical 100000, max 90000, psv 95000

Как моя начальная буква grep для thermald журналы были немного широки, я также врезался в некоторых, возможно, соответствующие записи в журнале ядра:

thermal thermal_zone2: failed to read out thermal zone (-5) - произошедший близко к завершению работы

Это сузило бы или к или к обе из записей близко ко времени репликации завершения работы.

Однако у меня все еще нет подсказки, как считать те данные, или являюсь ли я, полностью вводят в заблуждение в сборе данных во-первых.

Возможно, мой watch интервал должен быть намного короче?

Возможно, нет на самом деле никакого перегрева, но некоторых (ядро?) проблема, которая предотвращает надлежащее чтение температур?

Любое приветствие разъяснения.

Последнее обновление, вне темы

Я теперь переустановил Ubuntu 17.04.

Проблема не копирует.

Числа от sensors и hddtemp немного ниже, чем те протестированные с 17,10, но незначительно.

Обратите внимание, что я должен параметризовать ядро с pci=noacpi на 17,04, чтобы смочь запустить/завершить работу правильно. Возможно, это связано... Я предполагаю, что останусь невежественным на данный момент...

Question 2

У меня была такая же проблема, которая также началась после обновления до 17.10. Кроме того, мои характеристики очень похожи.

Наконец, я смог решить эту проблему, просто загрузившись в режиме UEFI .

Это заставляет мой драйвер процессора вести себя более оптимально:

В режиме загрузки BIOS регулятор производительности всегда включен с турбонаддувом, а частота тока всегда равна максимальной частоте.
В UEFI режим энергосбережения предпочтителен, при этом режим производительности включается при необходимости, а частота увеличивается по требованию.

Больше нет проблем с перегревом. Проверено взад и вперед.

Обновление: шаги по устранению неполадок, которые я предпринял

Шаг 1 : Проверьте журналы в /var/log. Журналы системы и ядра сообщают, что температура достигает высоких уровней за несколько минут до каждого выключения:

12 ноября 13:36:20 ядро: [899.138274] CPU0: температура пакета выше порогового значения, дросселированные часы процессора (общее количество событий = 1)

12 ноября, 13:36:20 ядро: [899.139245] CPU0: температура / скорость ядра в норме

Обратите внимание, что в ту же секунду сообщается, что температура вернулась к нормальному. Странно, но больше ничего не было подозрительно в журналах.

Шаг 2 : Измерьте температуру, которая вызывает отключение. Я использовал lm-sensors, чтобы наблюдать значения датчика каждую секунду и выводить результаты в файл. Температура выключения была более или менее на уровне 95 градусов Цельсия - несколько градусов ниже 100, что обычно должно вызывать отключение.

Шаг 3 : протестировать различные пакеты управления питанием / температурой, такие как tlp, laptop-mode-tools, cpufreq, cpupower и т. Д. - ни один из них не помог.
]
Шаг 4 : Изучите каталог /sys/devices/system/cpu/cpu*/cpufreq для подсказок. Я заметил, что файлы scaling_cur_freq, scaling_min_freq и scaling_max_freq всегда показывают одно и то же значение, которое для меня составляет 3500000. Также 3,5 ГГц это режим турбо-буста. Weird.

Шаг 5 : Используйте cpupower для ручного изменения регулятора ЦП на энергосбережение, а затем для дросселирования ЦП. Не помогло. Выглядело, однако, как будто процессор не работал, даже если команда была выполнена успешно.

Шаг 6 : Изменить драйвер ЦП и отключить intel_pstate в конфигурационном файле grub.

Шаг 7 : Переключиться на альтернативные драйверы графической карты - не помогло вообще.

Шаг 8 : Разберите ноутбук и почистите его - TINY немного лучше, но не решил проблему:)

Шаг 8 : Измените режим загрузки, так как это может потенциально повлиять на водителей низкого уровня. Я повторил шаг 4 и заметил, что процессор действительно ведет себя по-другому.

Может быть, кто-то еще сможет объяснить нам, как это на самом деле работает:)

83C10 · Answer 1 · 2 December 2019 в 08:29

У меня была такая же проблема, которая также началась после обновления до 17.10. Кроме того, мои характеристики очень похожи.

Наконец, я смог решить эту проблему, просто загрузившись в режиме UEFI .

Это заставляет мой драйвер процессора вести себя более оптимально:

В режиме загрузки BIOS регулятор производительности всегда включен с турбонаддувом, а частота тока всегда равна максимальной частоте.
В UEFI режим энергосбережения предпочтителен, при этом режим производительности включается при необходимости, а частота увеличивается по требованию.

Больше нет проблем с перегревом. Проверено взад и вперед.

Обновление: шаги по устранению неполадок, которые я предпринял

Шаг 1 : Проверьте журналы в /var/log. Журналы системы и ядра сообщают, что температура достигает высоких уровней за несколько минут до каждого выключения:

12 ноября 13:36:20 ядро: [899.138274] CPU0: температура пакета выше порогового значения, дросселированные часы процессора (общее количество событий = 1)

12 ноября, 13:36:20 ядро: [899.139245] CPU0: температура / скорость ядра в норме

Обратите внимание, что в ту же секунду сообщается, что температура вернулась к нормальному. Странно, но больше ничего не было подозрительно в журналах.

Шаг 2 : Измерьте температуру, которая вызывает отключение. Я использовал lm-sensors, чтобы наблюдать значения датчика каждую секунду и выводить результаты в файл. Температура выключения была более или менее на уровне 95 градусов Цельсия - несколько градусов ниже 100, что обычно должно вызывать отключение.

Шаг 3 : протестировать различные пакеты управления питанием / температурой, такие как tlp, laptop-mode-tools, cpufreq, cpupower и т. Д. - ни один из них не помог.
]
Шаг 4 : Изучите каталог /sys/devices/system/cpu/cpu*/cpufreq для подсказок. Я заметил, что файлы scaling_cur_freq, scaling_min_freq и scaling_max_freq всегда показывают одно и то же значение, которое для меня составляет 3500000. Также 3,5 ГГц это режим турбо-буста. Weird.

Шаг 5 : Используйте cpupower для ручного изменения регулятора ЦП на энергосбережение, а затем для дросселирования ЦП. Не помогло. Выглядело, однако, как будто процессор не работал, даже если команда была выполнена успешно.

Шаг 6 : Изменить драйвер ЦП и отключить intel_pstate в конфигурационном файле grub.

Шаг 7 : Переключиться на альтернативные драйверы графической карты - не помогло вообще.

Шаг 8 : Разберите ноутбук и почистите его - TINY немного лучше, но не решил проблему:)

Шаг 8 : Измените режим загрузки, так как это может потенциально повлиять на водителей низкого уровня. Я повторил шаг 4 и заметил, что процессор действительно ведет себя по-другому.

Может быть, кто-то еще сможет объяснить нам, как это на самом деле работает:)

То, что является оптимальным, должно - собираться для поиска и устранения неисправностей самозавершения работы ноутбука (вероятно, из-за перегрева)

1 ответ

Обновление: шаги по устранению неполадок, которые я предпринял

Другие вопросы по тегам:

Похожие вопросы: