centos 7.0系统中经常出现报错kernel:BUG:bug soft lockupp - CPU#0 stuck for 21s。如何解决?

微信公众号:centoscn
解决centos 7.0运行docker出现内核报错方法
目前我这里docker是运行在centos 7.0系统里,使用1.5版本docker,最近一台服务器总是不定期死机,通过查看日志发现属于内核bug导致,报错信息如下
May&11&03:43:08&ip-10-10-29-201&kernel:&BUG:&soft&lockup&-&CPU
May&11&03:43:08&ip-10-10-29-201&kernel:&Modules&linked&in:&iptable_nat&nf_nat_ipv4&iptable_filter&ip_tables&binfmt_misc&ipmi_si&vfat&fat&usb_storage&mpt3sas&mpt2sas&raid_
class&scsi_transport_sas&mptctl&mptbase&dell_rbu&tcp_diag&inet_diag&veth&bridge&stp&llc&dm_thin_pool&dm_persistent_data&dm_bio_prison&dm_bufio&loop&dm_mod&openvswitch&vxl
an&ip_tunnel&gre&libcrc32c&xt_nat&ipt_MASQUERADE&xt_addrtype&nf_nat&xt_limit&ipt_REJECT&nf_conntrack_ipv4&nf_defrag_ipv4&xt_multiport&xt_conntrack&sg&nf_conntrack&ipmi_de
vintf&iTCO_wdt&iTCO_vendor_support&dcdbas&coretemp&kvm_intel&kvm&crct10dif_pclmul&crc32_pclmul&crc32c_intel&ghash_clmulni_intel&aesni_intel&lrw&gf128mul&glue_helper&ablk_
helper&cryptd&pcspkr&sb_edac&edac_core&ses&enclosure&ipmi_msghandler&tg3&wmi&acpi_power_meter&ptp&pps_core&mei_me&mei&ntb&lpc_ich&mperf&mfd_core&shpchp&ext4
May&11&03:43:08&ip-10-10-29-201&kernel:&mbcache&jbd2&sr_mod&cdrom&sd_mod&crc_t10dif&crct10dif_common&mgag200&syscopyarea&sysfillrect&sysimgblt&i2c_algo_bit&drm_kms_helper
&ttm&ahci&drm&libahci&libata&i2c_core&megaraid_sas&[last&unloaded:&ip_tables]
May&11&03:43:08&ip-10-10-29-201&kernel:&CPU:&4&PID:&1542&Comm:&handler20&Tainted:&G&&&&&&&&W&&&--------------&&&3.10.0-123.el7.x86_64&
May&11&03:43:08&ip-10-10-29-201&kernel:&Hardware&name:&Dell&Inc.&PowerEdge&R720/0X6FFV,&BIOS&1.6.0&03/07/2013
May&11&03:43:08&ip-10-10-29-201&kernel:&task:&ffff880418adf1c0&ti:&ffff00&task.ti:&ffff00
May&11&03:43:08&ip-10-10-29-201&kernel:&RIP:&0010:[&ffffffff815e90e7&]&&[&ffffffff815e90e7&]&_raw_spin_lock+0x37/0x50
May&11&03:43:08&ip-10-10-29-201&kernel:&RSP:&0018:ffff8&&EFLAGS:&
May&11&03:43:08&ip-10-10-29-201&kernel:&RAX:&108b&RBX:&0000&RCX:&0000
May&11&03:43:08&ip-10-10-29-201&kernel:&RDX:&0002&RSI:&0002&RDI:&ffff
May&11&03:43:08&ip-10-10-29-201&kernel:&RBP:&ffff8&R08:&ffffd8&R09:&ffff8
May&11&03:43:08&ip-10-10-29-201&kernel:&R10:&bec8f9&R12:&ffff8
May&11&03:43:08&ip-10-10-29-201&kernel:&R13:&ffffffff815f2d9d&R14:&ffff8&R15:&ffff
May&11&03:43:08&ip-10-10-29-201&kernel:&FS:&&0b700(0000)&GS:ffff8(0000)&knlGS:0000
May&11&03:43:08&ip-10-10-29-201&kernel:&CS:&&0010&DS:&0000&ES:&0000&CR0:&0033
May&11&03:43:08&ip-10-10-29-201&kernel:&CR2:&e6000&CR3:&c9000&CR4:&07e0
May&11&03:43:08&ip-10-10-29-201&kernel:&DR0:&0000&DR1:&0000&DR2:&0000
May&11&03:43:08&ip-10-10-29-201&kernel:&DR3:&0000&DR6:&ffff0ff0&DR7:&0400
May&11&03:43:08&ip-10-10-29-201&kernel:&Stack:
May&11&03:43:08&ip-10-10-29-201&kernel:&ffff8&ffffffffa042429f&ffff&ffffe8fbefc41540
May&11&03:43:08&ip-10-10-29-201&kernel:&ffff&ffff8&ffff8&ffffffffa04239a4
May&11&03:43:08&ip-10-10-29-201&kernel:&ec8070&ffff&ffff8&0246
May&11&03:43:08&ip-10-10-29-201&kernel:&Call&Trace:
May&11&03:43:08&ip-10-10-29-201&kernel:&&IRQ&
May&11&03:43:08&ip-10-10-29-201&kernel:
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa042429f&]&ovs_flow_stats_update+0x4f/0xd0&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa04239a4&]&ovs_dp_process_received_packet+0x84/0x120&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa042a01a&]&ovs_vport_receive+0x2a/0x30&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa042b4cd&]&vxlan_rcv+0x6d/0x90&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa037b228&]&vxlan_udp_encap_recv+0xb8/0x130&[vxlan]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff81538bc2&]&udp_queue_rcv_skb+0x162/0x3d0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815394bd&]&__udp4_lib_rcv+0x19d/0x690
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff&]&?&ip_rcv_finish+0x350/0x350
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815399ca&]&udp_rcv+0x1a/0x20
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff&]&ip_local_deliver_finish+0xb4/0x1f0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff&]&ip_local_deliver+0x48/0x80
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815091fd&]&ip_rcv_finish+0x7d/0x350
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff81509ac4&]&ip_rcv+0x234/0x380
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814cfdb6&]&__netif_receive_skb_core+0x676/0x870
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814cffc8&]&__netif_receive_skb+0x18/0x60
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814d0b7e&]&process_backlog+0xae/0x180
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814d041a&]&net_rx_action+0x15a/0x250
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff&]&__do_softirq+0xf7/0x290
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815f3a5c&]&call_softirq+0x1c/0x30
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff81014d25&]&do_softirq+0x55/0x90
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff&]&irq_exit+0x115/0x120
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815f4358&]&do_IRQ+0x58/0xf0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815e94ad&]&common_interrupt+0x6d/0x6d
May&11&03:43:08&ip-10-10-29-201&kernel:&&EOI&
May&11&03:43:08&ip-10-10-29-201&kernel:
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa0424465&]&?&ovs_flow_stats_get+0x145/0x180&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa0424453&]&?&ovs_flow_stats_get+0x133/0x180&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa04217b7&]&ovs_flow_cmd_fill_info+0x1c7/0x320&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa0421c5c&]&ovs_flow_cmd_build_info.constprop.25+0x6c/0xa0&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffffa0422155&]&ovs_flow_cmd_new_or_set+0x4c5/0x520&[openvswitch]
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff8108ec58&]&?&__wake_up_common+0x58/0x90
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814ffcd8&]&genl_family_rcv_msg+0x258/0x3d0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814ffe50&]&?&genl_family_rcv_msg+0x3d0/0x3d0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814ffee1&]&genl_rcv_msg+0x91/0xd0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fdf99&]&netlink_rcv_skb+0xa9/0xc0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fe4c8&]&genl_rcv+0x28/0x40
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fd5bd&]&netlink_unicast+0xed/0x1b0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fd9a7&]&netlink_sendmsg+0x327/0x760
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fa874&]&?&netlink_rcv_wake+0x44/0x60
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814fb92b&]&?&netlink_recvmsg+0x1cb/0x3e0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814b79b0&]&sock_sendmsg+0xb0/0xf0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814b807f&]&?&sock_recvmsg+0xbf/0x100
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff8109b23e&]&?&task_scan_min+0x3e/0x60
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff815e908b&]&?&_raw_spin_unlock_bh+0x1b/0x40
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff814b7de9&]&___sys_sendmsg+0x3a9/0x3c0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff811f7fa9&]&?&ep_scan_ready_list.isra.9+0x1b9/0x1f0
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff811f8123&]&?&ep_poll+0x123/0x370
May&11&03:43:08&ip-10-10-29-201&kernel:&[&ffffffff81079af3&]&?&getrusage+0x43/0x70
May&11&03:43:09&ip-10-10-29-201&kernel:&[&ffffffff814b8cd1&]&__sys_sendmsg+0x51/0x90
May&11&03:43:09&ip-10-10-29-201&kernel:&[&ffffffff814b8d22&]&SyS_sendmsg+0x12/0x20
May&11&03:43:09&ip-10-10-29-201&kernel:&[&ffffffff815f2119&]&system_call_fastpath+0x16/0x1b
May&11&03:43:09&ip-10-10-29-201&kernel:&Code:&02&00&f0&0f&c1&07&89&c2&c1&ea&10&66&39&c2&75&02&5d&c3&83&e2&fe&0f&b7&f2&b8&00&80&00&00&eb&0c&0f&1f&44&00&00&f3&90&83&e8&01&7
4&0a&&0f&&b7&0f&66&39&ca&75&f1&5d&c3&66&66&66&90&66&66&90&eb&da&66&0f
&通过在stackoverflow查询发现此问题属于内核bug,解决方法是升级内核。
下面是把centos 7.0默认3.10版本内核升级为4.0.2版本过程
1、导入yum源的认证key
rpm&--import&https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
2、安装yum源
rpm&-Uvh&http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
3、安装新内核
在yum的ELRepo源中,有mainline(4.0.2)这个内核版本
[root@ip-10-10-29-201&~]
Loaded&plugins:&fastestmirror
MooseFS&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&&951&B&&00:00:00
base&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&3.6&kB&&00:00:00
elrepo&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&2.9&kB&&00:00:00
elrepo-kernel&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&2.9&kB&&00:00:00
extras&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&3.4&kB&&00:00:00
updates&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&3.4&kB&&00:00:00
(1/2):&elrepo/primary_db&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&233&kB&&00:00:02
(2/2):&elrepo-kernel/primary_db&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&782&kB&&00:00:04
MooseFS/primary&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&4.2&kB&&00:00:00
Loading&mirror&speeds&from&cached&hostfile
&*&base:&mirrors.
&*&elrepo:&repos.
&*&elrepo-kernel:&repos.
&*&extras:&mirror.
&*&updates:&mirror.
MooseFS&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&30/30
Resolving&Dependencies
--&&Running&transaction&check
---&&Package&kernel-ml.x86_64&0:4.0.2-1.el7.elrepo&will&be&installed
---&&Package&kernel-ml-devel.x86_64&0:4.0.2-1.el7.elrepo&will&be&installed
--&&Finished&Dependency&Resolution
Dependencies&Resolved
==========================================================================================================================================================================
&Package&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Arch&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Version&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Repository&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Size
==========================================================================================================================================================================
Installing:
&kernel-ml&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&4.0.2-1.el7.elrepo&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&elrepo-kernel&&&&&&&&&&&&&&&&&&&&&&&&&&&&36&M
&kernel-ml-devel&&&&&&&&&&&&&&&&&&&&&&&&&&&x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&4.0.2-1.el7.elrepo&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&elrepo-kernel&&&&&&&&&&&&&&&&&&&&&&&&&&&9.5&M
Transaction&Summary
==========================================================================================================================================================================
Install&&2&Packages
Total&download&size:&45&M
Installed&size:&199&M
Is&this&ok&[y/d/N]:&y
Downloading&packages:
(1/2):&kernel-ml-4.0.2-1.el7.elrepo.x86_64.rpm&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&&36&MB&&00:00:11
(2/2):&kernel-ml-devel-4.0.2-1.el7.elrepo.x86_64.rpm&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&|&9.5&MB&&00:00:31
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&1.5&MB/s&|&&45&MB&&00:00:31
Running&transaction&check
Running&transaction&test
Transaction&test&succeeded
Running&transaction
Warning:&RPMDB&altered&outside&of&yum.
&&Installing&:&kernel-ml-devel-4.0.2-1.el7.elrepo.x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&1/2
&&Installing&:&kernel-ml-4.0.2-1.el7.elrepo.x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&2/2
&&Verifying&&:&kernel-ml-4.0.2-1.el7.elrepo.x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&1/2
&&Verifying&&:&kernel-ml-devel-4.0.2-1.el7.elrepo.x86_64&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&2/2
Installed:
&&kernel-ml.x86_64&0:4.0.2-1.el7.elrepo&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&kernel-ml-devel.x86_64&0:4.0.2-1.el7.elrepo
4、查看当前内核版本
[root@ip-10-10-29-201&~]
3.10.0-123.el7.x86_64
重要:目前内核还是默认的版本,如果在这一步完成后你就直接reboot了,重启后使用的内核版本还是默认的3.10,不会使用新的4.0.2,想修改启动的顺序,需要进行下一步
查看默认启动顺序
[root@ip-10-10-29-201&~]
CentOS&Linux&(4.0.2-1.el7.elrepo.x86_64)&7&(Core)
CentOS&Linux,&with&Linux&3.10.0-123.el7.x86_64
CentOS&Linux,&with&Linux&0-rescue-18b184aa09434ecfb63638a
默认启动的顺序是从0开始,但我们新内核是从头插入(目前位置在1,而4.0.2的是在0),所以需要选择0,如果想生效最新的内核,需要
[root@ip-10-10-29-201&~]
6、重启后查看内核
[root@ip-10-10-29-201&conf]
4.0.2-1.el7.elrepo.x86_64
经过升级后,20天没有出现此问题,所以判断此次文件为内核bug引起,通过升级内核解决。
------分隔线----------------------------
(or type Control-Dto continue)...线上centos6出现软死锁 kernel:BUG: soft lockup_linux教程-织梦者
当前位置:&>&&>& > 线上centos6出现软死锁 kernel:BUG: soft lockup
线上centos6出现软死锁 kernel:BUG: soft lockup
这篇linux教程线上centos6出现软死锁 kernel:BUG: soft lockup,具体实现方法:线上centos6出现软死锁 kernel:BUG: soft lockup
今天线上一台centos6机器用xshell一直连接不上,然后在xshell上显示
Message from syslogd@GZxxx at Mar 29 14:13:14 ...kernel:BUG: soft lockup - CPU#1 stuck for 68s! [events/1:36]
过了10分钟,终于可以连上了,看一下开机日志
dmesg |grep stuckBUG: soft lockup - CPU#2 stuck for 67s! [vmmemctl:894]BUG: soft lockup - CPU#5 stuck for 67s! [bdi-default:49]BUG: soft lockup - CPU#3 stuck for 67s! [irqbalance:1351]BUG: soft lockup - CPU#4 stuck for 67s! [swapper:0]BUG: soft lockup - CPU#6 stuck for 67s! [watchdog/6:30]BUG: soft lockup - CPU#5 stuck for 67s! [vmmemctl:894]BUG: soft lockup - CPU#0 stuck for 67s! [events/0:35]BUG: soft lockup - CPU#7 stuck for 67s! [lldpad:1459]BUG: soft lockup - CPU#6 stuck for 67s! [mpt_poll_0:376]BUG: soft lockup - CPU#4 stuck for 67s! [ksoftirqd/4:21]BUG: soft lockup - CPU#1 stuck for 67s! [events/1:36]BUG: soft lockup - CPU#3 stuck for 62s! [rsyslogd:1325]BUG: soft lockup - CPU#4 stuck for 72s! [events/4:39]BUG: soft lockup - CPU#1 stuck for 70s! [automount:4252]BUG: soft lockup - CPU#2 stuck for 73s! [hald:1685]BUG: soft lockup - CPU#0 stuck for 61s! [automount:1776]BUG: soft lockup - CPU#6 stuck for 67s! [events/6:41]BUG: soft lockup - CPU#5 stuck for 67s! [vmmemctl:894]BUG: soft lockup - CPU#7 stuck for 65s! [lldpad:1459]BUG: soft lockup - CPU#3 stuck for 68s! [swapper:0]BUG: soft lockup - CPU#2 stuck for 68s! [events/2:37]BUG: soft lockup - CPU#0 stuck for 67s! [crond:1815]BUG: soft lockup - CPU#7 stuck for 67s! [watchdog/7:34]BUG: soft lockup - CPU#1 stuck for 68s! [events/1:36]BUG: soft lockup - CPU#4 stuck for 67s! [watchdog/4:22]BUG: soft lockup - CPU#5 stuck for 68s! [watchdog/5:26]BUG: soft lockup - CPU#3 stuck for 66s! [swapper:0]BUG: soft lockup - CPU#2 stuck for 66s! [ksoftirqd/2:13]BUG: soft lockup - CPU#0 stuck for 67s! [watchdog/0:6]BUG: soft lockup - CPU#5 stuck for 67s! [watchdog/5:26]BUG: soft lockup - CPU#6 stuck for 62s! [fcoemon:1509]BUG: soft lockup - CPU#4 stuck for 70s! [lldpad:1459]BUG: soft lockup - CPU#7 stuck for 63s! [watchdog/7:34]BUG: soft lockup - CPU#1 stuck for 63s! [sync_supers:48]BUG: soft lockup - CPU#3 stuck for 63s! [irqbalance:1351]BUG: soft lockup - CPU#2 stuck for 62s! [events/2:37]BUG: soft lockup - CPU#0 stuck for 68s! [events/0:35]BUG: soft lockup - CPU#2 stuck for 68s! [sa1:4687]BUG: soft lockup - CPU#3 stuck for 78s! [flush-8:0:4618]BUG: soft lockup - CPU#1 stuck for 78s! [events/1:36]BUG: soft lockup - CPU#4 stuck for 63s! [lldpad:1459]BUG: soft lockup - CPU#6 stuck for 64s! [fcoemon:1509]BUG: soft lockup - CPU#5 stuck for 64s! [NetworkManager:1531]BUG: soft lockup - CPU#0 stuck for 62s! [watchdog/0:6]BUG: soft lockup - CPU#7 stuck for 68s! [watchdog/7:34]BUG: soft lockup - CPU#4 stuck for 63s! [lldpad:1459]BUG: soft lockup - CPU#1 stuck for 162s! [irqbalance:1351]BUG: soft lockup - CPU#6 stuck for 128s! [hald:1685]BUG: soft lockup - CPU#2 stuck for 130s! [sshd:4688]BUG: soft lockup - CPU#5 stuck for 147s! [rsyslogd:1325]BUG: soft lockup - CPU#3 stuck for 71s! [flush-8:0:4618]BUG: soft lockup - CPU#6 stuck for 68s! [events/6:41]BUG: soft lockup - CPU#2 stuck for 68s! [irqbalance:1351]BUG: soft lockup - CPU#1 stuck for 68s! [su:4783]BUG: soft lockup - CPU#7 stuck for 67s! [crond:1815]BUG: soft lockup - CPU#5 stuck for 67s! [events/5:40]BUG: soft lockup - CPU#0 stuck for 66s! [lldpad:1459]BUG: soft lockup - CPU#4 stuck for 65s! [automount:4785]
全部都是这种错误:BUG: soft lockup - CPU#x stuck for xs
这个错误是什么鬼?
查了一下百度,发现这是一个软死锁
内核软死锁(soft lockup)bug
Soft lockup名称解释:所谓,soft lockup就是说,这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。
Linux内核对于每一个cpu都有一个监控进程,在技术界这个叫做watchdog(看门狗)。通过ps -eo ppid,pid,user,args |grep watchdog能够看见,进程名称大概是watchdog/X(数字:cpu逻辑编号1/2/3/4之类的)。这个进程或者线程每一秒钟运行一次,否则会睡眠和待机。这个进程运行会收集每一个cpu运行时使用数据的时间并且存放到属于每个cpu自己的内核数据结构。在内核中有很多特定的中断函数。这些中断函数会调用soft lockup计数,他会使用当前的时间戳与特定(对应的)cpu的内核数据结构中保存的时间对比,如果发现当前的时间戳比对应cpu保存的时间大于设定的阀值,他就假设监测进程或看门狗线程在一个相当可观的时间还没有执。Cpu软锁为什么会产生,是怎么产生的?如果linux内核是经过精心设计安排的CPU调度访问,那么怎么会产生cpu软死锁?那么只能说由于用户开发的或者第三方软件引入,看我们服务器内核panic的原因就是qmgr进程引起。因为每一个无限的循环都会一直有一个cpu的执行流程(qmgr进程示一个后台邮件的消息队列服务进程),并且拥有一定的优先级。Cpu调度器调度一个驱动程序来运行,如果这个驱动程序有问题并且没有被检测到,那么这个驱动程序将会暂用cpu的很长时间。根据前面的描述,看门狗进程会抓住(catch)这一点并且抛出一个软死锁(soft lockup)错误。软死锁会挂起cpu使你的系统不可用。
如果是用户空间的进程或线程引起的问题backtrace是不会有内容的,如果内核线程那么在soft lockup消息中会显示出backtrace信息。
简单来说: 由于系统的某个驱动程序有问题导致watchdog无法收集每一个逻辑cpu运行时使用数据并抛出一个软死锁(soft lockup)错误
线上服务器有7个逻辑cpu所以有7只狗
cat /proc/cpuinfo |grep processorprocessor : 0processor : 1processor : 2processor : 3processor : 4processor : 5processor : 6processor : 7
ps -eo ppid,pid,user,args |grep watchdog2 6 root
[watchdog/0]2 10 root [watchdog/1]2 14 root [watchdog/2]2 18 root [watchdog/3]2 22 root [watchdog/4]2 26 root [watchdog/5]2 30 root [watchdog/6]2 34 root [watchdog/7] root grep watchdog
在/var/log/messages里找到关键信息,由于用的是vmware esxi平台,估计vmware esxi的某个硬件驱动有问题,正准备联系vmware那边的工程师解决
less /var/log/messagesMar 28 18:34:55 xxx kernel: UNSUPPORTED HARDWARE DEVICE: CPU family 6 model & 59Mar 28 18:34:55 xxx kernel: ------------[ cut here ]------------Mar 28 18:34:55 xxx kernel: WARNING: at kernel/rh_taint.c:13 mark_hardware_unsupported+0x39/0x40() (Not tainted)Mar 28 18:34:55 xxx kernel: Hardware name: VMware Virtual PlatformMar 28 18:34:55 xxx kernel: Your hardware is unsupported.
Please do not report bugs, panics, oopses, etc., on this hardware.Mar 28 18:34:55 xxx kernel: Modules linked in:Mar 28 18:34:55 xxx kernel: Pid: 0, comm: swapper Not tainted 2.6.32-279.el6.x86_64 #1Mar 28 18:34:55 xxx kernel: Call Trace:Mar 28 18:34:55 xxx kernel: [&ffffffff&] ? warn_slowpath_common+0x87/0xc0Mar 28 18:34:55 xxx kernel: [&ffffffff8106b7df&] ? warn_slowpath_fmt_taint+0x3f/0x50Mar 28 18:34:55 xxx kernel: [&ffffffff&] ? mark_hardware_unsupported+0x39/0x40Mar 28 18:34:55 xxx kernel: [&ffffffff81c27b5d&] ? setup_arch+0xb1f/0xb42Mar 28 18:34:55 xxx kernel: [&ffffffff814fd223&] ? printk+0x41/0x46Mar 28 18:34:55 xxx kernel: [&ffffffff81c21c33&] ? start_kernel+0xdc/0x430Mar 28 18:34:55 xxx kernel: [&ffffffff81c2133a&] ? x86_64_start_reservations+0x125/0x129Mar 28 18:34:55 xxx kernel: [&ffffffff81c21438&] ? x86_64_start_kernel+0xfa/0x109Mar 28 18:34:55 xxx kernel: ---[ end trace ac0a725 ]---Mar 28 18:34:55 xxx kernel: NR_CPUS:4096 nr_cpumask_bits:8 nr_cpu_ids:8 nr_node_ids:1Mar 28 18:34:55 xxx kernel: PERCPU: Embedded 31 pages/cpu @ffff s9 d2Mar 28 18:34:55 xxx kernel: pcpu-alloc: s9 d2 alloc=1*2097152Mar 28 18:34:55 xxx kernel: pcpu-alloc: [0] 0 1 2 3 4 5 6 7 Mar 28 18:34:55 xxx kernel: Built 1 zonelists in Zone order, mobility grouping on.
Total pages: 2064657Mar 28 18:34:55 xxx kernel: Policy zone: NormalMar 28 18:34:55 xxx kernel: Kernel command line: ro root=UUID=12b1eb92-e0a3-441c-98e0-6d75d9e510c2 rd_NO_LUKS rd_NO_LVM LANG=en_US.UTF-8 rd_NO_MD SYSFONT=latarcyrheb-sun16 crashkernel=128M
KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM rhgb quiet
参考文章/110581//brucewoo/archive//3226861.html通过《线上centos6出现软死锁 kernel:BUG: soft lockup》的介绍希望对您了解和学习linux能够提供帮助.
这些内容可能对你也有帮助
更多可查看linux教程列表页。
猜您也会喜欢这些文章}

我要回帖

更多关于 soft lockup 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信