У меня есть следующая конфигурация рабочей станции с 64 ядрами: 4x Поршень AMD Athlon 6378 2.4 ГГц 128 ГБ Супермикро материнская плата H8QGI-F-O SDD на 2 x 512 ГБ Samsung с программным обеспечением RAID 0 установок
Я работаю, Ubuntu разъединяют 14.04. Я получал следующую ошибку для всех ядер сервера человечности, которые я попробовал (3.13.0-32 до 3.13.0-45). Я выполняю молекулярное моделирование динамики при выполнении его больше чем на 20 процессорах, машина значительно замедляется в какой-то степени замораживания (сообщения об ошибках из /var/log/kern.log, отправленного ниже). Это работает очень хорошо при выполнении всего одного экземпляра программы... нет никакой проблемы с пакетом программ моделирования, я выполнил его на различных серверах в 64 копиях, и это работало очень хорошо. Я также загрузил CentOS 7 и Ubuntu 12.04 от LiveCD на моей машине и выполнил 64 экземпляра кода, и это никогда не замедлялось / заморозился. Ubuntu 12.04 с ядром 13.0.-32 запустила программное обеспечение очень хорошо от начальной загрузки LiveCD, но всегда замораживалась с моей установкой сервера Ubuntu 14.04. Это могло быть возможно вызвано некоторыми загруженными модулями в ядре? Я попробовал memtest (без проблем), и также выделение компьютера с выполнением 64 копий cpuburn, все хорошо работали, таким образом, это кажется как специфическая ошибка. Любая справка / совет, как настроить мою установку Ubuntu 14.04, чтобы заставить его работать безупречно без тупика CPU, значительно ценится!
Jun 12 10:40:15 vochomurka kernel: [ 233.746081] WARNING: CPU: 59 PID: 4337 at /build/buildd/linux-3.13.0/kernel/watchdog.c:245 watchdog_overflow_callback+0x9c/0xd0() Jun 12 10:40:15 vochomurka kernel: [ 233.746084] Watchdog detected hard LOCKUP on cpu 59 Jun 12 10:40:15 vochomurka kernel: [ 233.746086] Modules linked in: rfcomm bnep bluetooth binfmt_misc kvm_amd kvm crct10dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel aes_x86_64 lrw gf128mul glue_helper ablk_helper cryptd serio_raw amd64_edac_mod edac_core fam15h_power k10temp edac_mce_amd nvidia(POX) sp5100_tco i2c_piix4 drm shpchp joydev mac_hid parport_pc ppdev lp parport pata_acpi hid_generic usbhid hid raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq raid1 raid0 multipath igb linear i2c_algo_bit psmouse dca ahci ptp pata_atiixp libahci pps_core Jun 12 10:40:15 vochomurka kernel: [ 233.746140] CPU: 59 PID: 4337 Comm: xargs Tainted: P OX 3.13.0-45-generic #74-Ubuntu Jun 12 10:40:15 vochomurka kernel: [ 233.746143] Hardware name: Supermicro H8QG6/H8QG6, BIOS 3.5 12/16/2013 Jun 12 10:40:15 vochomurka kernel: [ 233.746145] 0000000000000009 ffff882066d65c38 ffffffff81720eb6 ffff882066d65c80 Jun 12 10:40:15 vochomurka kernel: [ 233.746174] ffff882066d65c70 ffffffff810677cd ffff88203a840000 0000000000000000 Jun 12 10:40:15 vochomurka kernel: [ 233.746187] ffff882066d65d88 0000000000000000 ffff882066d65ef8 ffff882066d65cd0 Jun 12 10:40:15 vochomurka kernel: [ 233.746201] Call Trace: Jun 12 10:40:15 vochomurka kernel: [ 233.746203] [] dump_stack+0x45/0x56 Jun 12 10:40:15 vochomurka kernel: [ 233.746220] [] warn_slowpath_common+0x7d/0xa0 Jun 12 10:40:15 vochomurka kernel: [ 233.746226] [] warn_slowpath_fmt+0x4c/0x50 Jun 12 10:40:15 vochomurka kernel: [ 233.746233] [] ? restart_watchdog_hrtimer+0x50/0x50 Jun 12 10:40:15 vochomurka kernel: [ 233.746239] [] watchdog_overflow_callback+0x9c/0xd0 Jun 12 10:40:15 vochomurka kernel: [ 233.746246] [] __perf_event_overflow+0x8e/0x240 Jun 12 10:40:15 vochomurka kernel: [ 233.746254] [] ? ioremap_page_range+0x241/0x320 Jun 12 10:40:15 vochomurka kernel: [ 233.746260] [] perf_event_overflow+0x14/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746267] [] x86_pmu_handle_irq+0x144/0x190 Jun 12 10:40:15 vochomurka kernel: [ 233.746275] [] ? unmap_kernel_range_noflush+0x11/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746282] [] perf_event_nmi_handler+0x2b/0x50 Jun 12 10:40:15 vochomurka kernel: [ 233.746288] [] nmi_handle.isra.3+0x88/0x180 Jun 12 10:40:15 vochomurka kernel: [ 233.746294] [] do_nmi+0x169/0x340 Jun 12 10:40:15 vochomurka kernel: [ 233.746299] [] end_repeat_nmi+0x1e/0x2e Jun 12 10:40:15 vochomurka kernel: [ 233.746307] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746312] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746317] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746319] > [] _raw_write_lock_irq+0x1e/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746330] [] do_exit+0x5a9/0xa50 Jun 12 10:40:15 vochomurka kernel: [ 233.746336] [] do_group_exit+0x3f/0xa0 Jun 12 10:40:15 vochomurka kernel: [ 233.746341] [] SyS_exit_group+0x14/0x20 Jun 12 10:40:15 vochomurka kernel: [ 233.746348] [] system_call_fastpath+0x1a/0x1f Jun 12 10:40:15 vochomurka kernel: [ 233.746350] ---[ end trace 04f618100e4ac70c ]--- Jun 12 10:40:29 vochomurka kernel: [ 251.810867] pbs_sched[2739]: segfault at 0 ip 00007fc20f1927fc sp 00007fff726e1d50 error 4 in libtorque.so.2.0.0[7fc20f180000+2c000] Jun 12 10:41:25 vochomurka kernel: [ 312.822760] ------------[ cut here ]------------ Jun 12 10:41:25 vochomurka kernel: [ 312.822775] WARNING: CPU: 59 PID: 4360 at /build/buildd/linux-3.13.0/kernel/watchdog.c:245 watchdog_overflow_callback+0x9c/0xd0() Jun 12 10:41:25 vochomurka kernel: [ 312.822777] Watchdog detected hard LOCKUP on cpu 59 Jun 12 10:41:25 vochomurka kernel: [ 312.822779] Modules linked in: rfcomm bnep bluetooth binfmt_misc kvm_amd kvm crct10dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel aes_x86_64 lrw gf128mul glue_helper ablk_helper cryptd serio_raw amd64_edac_mod edac_core fam15h_power k10temp edac_mce_amd nvidia(POX) sp5100_tco i2c_piix4 drm shpchp joydev mac_hid parport_pc ppdev lp parport pata_acpi hid_generic usbhid hid raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq raid1 raid0 multipath igb linear i2c_algo_bit psmouse dca ahci ptp pata_atiixp libahci pps_core Jun 12 10:41:25 vochomurka kernel: [ 312.822832] CPU: 59 PID: 4360 Comm: pbs_iff Tainted: P W OX 3.13.0-45-generic #74-Ubuntu Jun 12 10:41:25 vochomurka kernel: [ 312.822834] Hardware name: Supermicro H8QG6/H8QG6, BIOS 3.5 12/16/2013 Jun 12 10:41:25 vochomurka kernel: [ 312.822837] 0000000000000009 ffff882066d65c38 ffffffff81720eb6 ffff882066d65c80 Jun 12 10:41:25 vochomurka kernel: [ 312.822870] ffff882066d65c70 ffffffff810677cd ffff88203a840000 0000000000000000 Jun 12 10:41:25 vochomurka kernel: [ 312.822893] ffff882066d65d88 0000000000000000 ffff882066d65ef8 ffff882066d65cd0 Jun 12 10:41:25 vochomurka kernel: [ 312.822911] Call Trace: Jun 12 10:41:25 vochomurka kernel: [ 312.822913] [] dump_stack+0x45/0x56 Jun 12 10:41:25 vochomurka kernel: [ 312.822931] [] warn_slowpath_common+0x7d/0xa0 Jun 12 10:41:25 vochomurka kernel: [ 312.822936] [] warn_slowpath_fmt+0x4c/0x50 Jun 12 10:41:25 vochomurka kernel: [ 312.822943] [] ? restart_watchdog_hrtimer+0x50/0x50 Jun 12 10:41:25 vochomurka kernel: [ 312.822949] [] watchdog_overflow_callback+0x9c/0xd0 Jun 12 10:41:25 vochomurka kernel: [ 312.822956] [] __perf_event_overflow+0x8e/0x240 Jun 12 10:41:25 vochomurka kernel: [ 312.822964] [] ? ioremap_page_range+0x241/0x320 Jun 12 10:41:25 vochomurka kernel: [ 312.822970] [] perf_event_overflow+0x14/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.822978] [] x86_pmu_handle_irq+0x144/0x190 Jun 12 10:41:25 vochomurka kernel: [ 312.822985] [] ? unmap_kernel_range_noflush+0x11/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.822993] [] perf_event_nmi_handler+0x2b/0x50 Jun 12 10:41:25 vochomurka kernel: [ 312.822998] [] nmi_handle.isra.3+0x88/0x180 Jun 12 10:41:25 vochomurka kernel: [ 312.823004] [] do_nmi+0xd0/0x340 Jun 12 10:41:25 vochomurka kernel: [ 312.823009] [] end_repeat_nmi+0x1e/0x2e Jun 12 10:41:25 vochomurka kernel: [ 312.823017] [] ? kzfree+0x2d/0x30 Jun 12 10:41:25 vochomurka kernel: [ 312.823024] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.823030] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.823035] [] ? __write_lock_failed+0x13/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.823037] > [] _raw_write_lock_irq+0x1e/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.823048] [] do_exit+0x30b/0xa50 Jun 12 10:41:25 vochomurka kernel: [ 312.823053] [] do_group_exit+0x3f/0xa0 Jun 12 10:41:25 vochomurka kernel: [ 312.823059] [] SyS_exit_group+0x14/0x20 Jun 12 10:41:25 vochomurka kernel: [ 312.823065] [] system_call_fastpath+0x1a/0x1f Jun 12 10:41:25 vochomurka kernel: [ 312.823067] ---[ end trace 04f618100e4ac70d ]--- Jun 12 10:41:25 vochomurka kernel: [ 312.823071] perf samples too long (4775 > 2500), lowering kernel.perf_event_max_sample_rate to 50000