После обновления до 15,10 от 15,04, веб-серверы EC2 стали очень Нестабильными

У меня есть множество машин Ubuntu, работающих в производстве приблизительно с 30, которые были обновлены от 15,04 до 15,10. С большинством машин обновление было бризом, и все функционировало отлично.

Однако 10 из моих веб-серверов начали отказывать сразу после этих 15,10 обновлений. До того, что точно определяет "катастрофический отказ", сбой Проверок Состояния Экземпляра, и я больше не могу SSH к машине. Второстепенные демоны, работающие на системе, прекращают отвечать, и ничто не записано в журналы. Новые записи в журнале я вижу на одном шоу машины:

/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPREQUEST of 10.xxx.xxx.104 on eth0 to 10.xxx.xxx.1 port 67 (xid=0x616a091d)
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPACK of 10.xxx.xxx.104 from 10.xxx.xxx.1
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: bound to 10.xxx.xxx.104 -- renewal in 1640 seconds.

Но мои Проверки Состояния Экземпляра не начали перестать работать до 00:32:00 (когда первой из нескольких проверок не удалось ответить). Нет абсолютно ничего в журналах в течение периода после записей выше.

Теперь, как я сказал, мои ~20 других 15,10 экземпляров никогда не отказывали за эти более чем 6 недель начиная с их обновления, только этот набор веб-серверов, и они все отказывают. Так, что является особенным в этих машинах? Только две вещи, действительно.

  1. Они - мой самый высокий трафик 15,10 экземпляров, отправляя и получая о 5-10Mb/sec в среднем, достигая максимума к более чем 30-40 при случае.
  2. Они - мои единственные экземпляры типа c4.xlarge или m4.xlarge. Первоначально, они были всеми c4.xlarge, но я заменил их m4.xlarge пытаться изолировать проблему. Это, кажется, является менее частым с m4.xlarge, но я все еще видел 3 или приблизительно 4 катастрофических отказа в день между этими 10 веб-серверами. Обычно я вижу, что каждый экземпляр отказывает по крайней мере один раз в день в на вид случайные времена.

Эти экземпляры выполняют Apache 2.4.x, mod_php 5.6.11, и memcached 1.4.24, но у меня есть другие машины, получающие меньше трафика в меньшем типе экземпляра, которые совершенно стабильны.

Не уверенный, если связано, но все эти машины видят периодический ifquery segfaults, например:

/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   22.592488] ifquery[476]: segfault at 1 ip 0000000000403187 sp 00007ffde8596050 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   23.593774] ifquery[510]: segfault at 1 ip 0000000000403187 sp 00007ffde6087b90 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   24.594994] ifquery[531]: segfault at 1 ip 0000000000403187 sp 00007ffe70747a50 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:04:12 xxx-web-3a kernel: [    2.623024] ifquery[367]: segfault at 1 ip 0000000000403187 sp 00007ffefc980f60 error 4 in ifup[400000+d000]

Одна система, до c4.xlarge --> m4.xlarge миграция, видел a General Protection Fault зарегистрированный единственное время в системном консольном журнале, но я не видел это снова.

Я не вижу эти segfaults на своих других 15,10 машинах, которые не отказывают.

Они все Улучшены Сетевые экземпляры с Intel 82599 10G Ethernet, который я немного подозреваю, может способствовать проблеме, но, у меня есть другие (much-lower-traffic) машины с тем же адаптером, работающим 15.10 без когда-либо катастрофического отказа.

Кто-либо видит подобные проблемы, или имейте какие-либо идеи для отладки или фиксации этого?Спасибо!

Править

Смотря на Консольный Журнал, одна из моих часто отказывающих систем сообщила об Общем нарушении защиты прямо перед перезагрузкой:

[171009.844097] general protection fault: 0000 [#1] [ 0.000000] Initializing cgroup subsys cpuset

Редактирование 2

Мы получили трассировку теперь с netconsole! Сообщение об ошибке.

[21410.260077] general protection fault: 0000 [#1] SMP
[21410.261976] Modules linked in: isofs xt_CHECKSUM iptable_mangle ipt_MASQUERADE nf_nat_masquerade_ipv4 iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack xt_tcpudp bridge stp llc iptable_filter ip_tables x_tables ppdev intel_rapl iosf_mbi xen_fbfront fb_sys_fops input_leds serio_raw i2c_piix4 parport_pc 8250_fintek parport mac_hid netconsole configfs autofs4 crct10dif_pclmul crc32_pclmul cirrus syscopyarea sysfillrect sysimgblt aesni_intel ttm aes_x86_64 drm_kms_helper lrw gf128mul glue_helper ablk_helper cryptd psmouse drm ixgbevf pata_acpi floppy
[21410.264054] CPU: 0 PID: 26957 Comm: apache2 Not tainted 4.2.0-23-generic #28-Ubuntu
[21410.264054] Hardware name: Xen HVM domU, BIOS 4.2.amazon 12/07/2015
[21410.264054] task: ffff8803f9809b80 ti: ffff8803f999c000 task.ti: ffff8803f999c000
[21410.264054] RIP: 0010:[<ffffffff810e5c36>]  [<ffffffff810e5c36>] run_timer_softirq+0x116/0x2d0
[21410.264054] RSP: 0000:ffff8803ff203e98  EFLAGS: 00010086
[21410.264054] RAX: dead000000200200 RBX: ffff8803ff20e9c0 RCX: ffff8803ff203ec8
[21410.264054] RDX: ffff8803ff203ec8 RSI: 0000000000011fc0 RDI: ffff8803ff20e9c0
[21410.264054] RBP: ffff8803ff203f08 R08: 000000000000a77a R09: 0000000000000000
[21410.264054] R10: 0000000000000020 R11: 0000000000000004 R12: 000000000000007c
[21410.264054] R13: ffffffff8172aaf0 R14: 0000000000000000 R15: ffff8803af955be0
[21410.264054] FS:  00007fb0ce6e8780(0000) GS:ffff8803ff200000(0000) knlGS:0000000000000000
[21410.264054] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[21410.264054] CR2: 00007fb0ce51e130 CR3: 00000003fb233000 CR4: 00000000001406f0
[21410.264054] Stack:
[21410.264054]  ffff8803ff203eb8 ffff8803ff20f5f8 ffff8803ff20f3f8 ffff8803ff20f1f8
[21410.264054]  ffff8803ff20e9f8 ffff8803af955b58 dead000000200200 00000000f60fabc0
[21410.264054]  0000000000011fc0 0000000000000001 ffffffff81c0b0c8 0000000000000001
[21410.264054] Call Trace:
[21410.264054]  <IRQ>
[21410.264054]  [<ffffffff8107f846>] __do_softirq+0xf6/0x250
[21410.264054]  [<ffffffff8107fb13>] irq_exit+0xa3/0xb0
[21410.264054]  [<ffffffff814a4499>] xen_evtchn_do_upcall+0x39/0x50
[21410.264054]  [<ffffffff817f1f6b>] xen_hvm_callback_vector+0x6b/0x70
[21410.264054]  <EOI>
[21410.264054] Code: 81 e6 00 00 20 00 48 85 d2 48 89 45 b8 0f 85 30 01 00 00 4c 89 7b 08 0f 1f 44 00 00 49 8b 07 49 8b 57 08 48 85 c0 48 89 02 74 04 <48> 89 50 08 41 f6 47 2a 10 48 b8 00 02 20 00 00 00 ad de 49 c7
[21410.264054] RIP  [<ffffffff810e5c36>] run_timer_softirq+0x116/0x2d0
[21410.264054]  RSP <ffff8803ff203e98>

Редактирование 3

Вот ошибка Ubuntu: https://bugs.launchpad.net/ubuntu / + источник/Linux / + ошибка/1534345

1
задан 15 January 2016 в 02:42

0 ответов

Другие вопросы по тегам:

Похожие вопросы: