Я установил новую машину для целей ML с Ubuntu 18.04:
$ lsb_release -a
LSB Version: core-9.20170808ubuntu1-noarch:security-9.20170808ubuntu1-noarch
Distributor ID: Ubuntu
Description: Ubuntu 18.04.2 LTS
Release: 18.04
Codename: bionic
Я подключен к этой машине через ssh.
Таким образом, при выполнении работы или просто выполнении команд (удаление папок с большим количеством данных) происходит довольно регулярно, что соединение не работает и многое другое. Я могу пропинговать машину, но больше не работаю на ней и вынуждает меня перезагрузить машину.
В ходе некоторых исследований я обнаружил, что стек файлов указывает на сбои OOPS:
$ll -t
total 763920
-rw-r--r-- 1 root whoopsie 294 Mai 6 13:21 kexec_cmd
-rw-r----- 1 foo whoopsie 732889032 Mai 6 10:57 _usr_lib_python3.6_pdb.py.1000.crash
-rw-r--r-- 1 kernoops whoopsie 895 Mai 3 20:41 linux-image-4.18.0-17-generic.42591.crash
-rw-r--r-- 1 kernoops whoopsie 895 Mai 3 20:41 linux-image-4.18.0-17-generic.42497.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:26 linux-image-4.18.0-17-generic.34694.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:26 linux-image-4.18.0-17-generic.34590.crash
-rw-r--r-- 1 kernoops whoopsie 798 Mai 3 20:26 linux-image-4.18.0-17-generic.37346.crash
-rw-r--r-- 1 kernoops whoopsie 802 Mai 3 20:26 linux-image-4.18.0-17-generic.37782.crash
-rw-r--r-- 1 kernoops whoopsie 422 Mai 3 20:26 linux-image-4.18.0-17-generic.9363.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:25 linux-image-4.18.0-17-generic.34652.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:25 linux-image-4.18.0-17-generic.34682.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:25 linux-image-4.18.0-17-generic.34688.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:25 linux-image-4.18.0-17-generic.34739.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:23 linux-image-4.18.0-17-generic.34615.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:23 linux-image-4.18.0-17-generic.34509.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:22 linux-image-4.18.0-17-generic.34645.crash
-rw-r--r-- 1 kernoops whoopsie 801 Mai 3 20:22 linux-image-4.18.0-17-generic.34637.crash
-rw-r--r-- 1 kernoops whoopsie 460 Mai 3 20:17 linux-image-4.18.0-17-generic.13155.crash
-rw-r--r-- 1 kernoops whoopsie 797 Mai 3 20:13 linux-image-4.18.0-17-generic.34408.crash
-rw-r--r-- 1 kernoops whoopsie 796 Mai 3 20:13 linux-image-4.18.0-17-generic.34166.crash
...
То, что содержимое одного из этих файлов показывает следующую информацию:
/var/crash$ cat linux-image-4.18.0-17-generic.34739.crash
ProblemType: KernelOops
Annotation: Your system might become unstable now and might need to be restarted.
Date: Fri May 3 20:25:42 2019
Failure: oops
OopsText:
BUG: Bad page map in process python pte:8000020475a4e867 pmd:3b6faa067
addr:0000000054faee0d vm_flags:08100073 anon_vma:00000000c19e8b03 mapping: (null) index:7f684bbe6
file: (null) fault: (null) mmap: (null) readpage: (null)
CPU: 0 PID: 5759 Comm: python Tainted: P B D OE 4.18.0-17-generic #18~18.04.1-Ubuntu
Hardware name: Micro-Star International Co., Ltd. MS-7A95/X299 GAMING PRO CARBON AC (MS-7A95), BIOS 1.90 07/31/2018
Call Trace:
Package: linux-image-4.18.0-17-generic 4.18.0-17.18~18.04.1
SourcePackage: linux
Tags: kernel-oops
Uname: Linux 4.18.0-17-generic x86_64
Я вставил больше данных в здесь .
У вас есть идея, в чем может быть причина проблем?