RAIDraid5 阵列硬盘更换写入就出错，如何检查是硬盘问题还是卡问题

点击联系发帖人 时间：2016-09-17 08:34

raid磁盘阵列教程

磁盘阵列常见故障与技巧_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
磁盘阵列常见故障与技巧
上传于||文档简介
&&磁盘阵列常见故障与技巧
阅读已结束，如果下载本文需要使用0下载券
想免费下载更多文档？
定制HR最喜欢的简历
下载文档到电脑，查找使用更方便
还剩1页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢&揭秘DELL硬件RAID卡的硬盘故障检测与恢复行为【技术文档】
秒后自动跳转到登录页
(奖励5下载豆)
快捷登录：
举报类型：
不规范：上传重复资源
不规范：标题与实际内容不符
不规范：资源无法下载或使用
其他不规范行为
违规：资源涉及侵权
违规：含有危害国家安全等内容
违规：含有反动/色情等内容
违规：广告内容
详细原因：
任何违反下载中心规定的资源，欢迎Down友监督举报，第一举报人可获5-10下载豆奖励。
RHCSA7/RHCE7红帽官
鸟哥的Linux私房菜基
Linux常用命令全集
鸟哥的linux私房菜基
SAN存储交换网基础培
vSphere存储性能优化
戴尔服务器新品来袭
揭秘DELL硬件RAID卡的硬盘故障检测与恢复行为【技术文档】
上传时间：
技术分类：
资源评价：
（8位用户参与评价）
已被下载&170&次
完全原创，图文并茂，包含你用谷歌都搜不到的技术细节。
本资料共包含以下附件：
揭秘 DELL 硬件 RAID 卡的硬盘故障检测与恢复行为.pdf
51CTO下载中心常见问题：
1.如何获得下载豆？
1)上传资料
2)评论资料
3)每天在首页签到领取
4)购买VIP会员服务，无需下载豆下载资源
5)更多途径：点击此处
2.如何删除自己的资料？
下载资料意味着您已同意遵守以下协议：
1.资料的所有权益归上传用户所有
2.未经权益所有人同意，不得将资料中的内容挪作商业或盈利用途
3.51CTO下载中心仅提供资料交流平台，并不对任何资料负责
4.本站资料中如有侵权或不适当内容，请邮件与我们联系（）
5.本站不保证资源的准确性、安全性和完整性, 同时也不承担用户因使用这些资料对自己和他人造成任何形式的伤害或损失
下载1477次
下载1371次
下载2324次
下载2218次
下载1443次
下载1139次
下载1269次
下载2080次
相关专题推荐
磁盘阵列简称RAID，有“价格便宜且多
网络存储系统的搭建能够为我们带来极
VMware是提供一套虚拟机解决方案的软
从开发、测试、生产三部曲这样的运作
本专题为vmware中文视频教程，在线视
本专题介绍了weblogic服务器在企业应
Vmware View是Vmware的桌面和应用虚拟
vSphere不是一个单独的产品，它由一系
本专题全面深入讲解Windows Server 2
本专题收集了高俊峰老师讲解的系统集
IBM TSM 备份软件实战教学视频，包含
菜鸟腾飞安全网VIP_精通VMware虚拟机
2013年传智播客WebService视频教程，
Active Directory 实操作参考系列，本
服务器虚拟化技术以VMware公司的vSph
LoadRunner，是一种预测系统行为和性
本周下载热点
意见或建议：
联系方式：
您已提交成功！感谢您的宝贵意见，我们会尽快处理博客访问： 5732761
博文数量： 986
注册时间：
IT168企业级官微
微信号：IT168qiye
系统架构师大会
微信号：SACC2013
分类： Linux
一现象描述
&&& &开发反馈某产品的agent&的进程hang在某些线程上,查看日志,agent &master 累积很多未处理的消息队列。在17:00 – 21:00 之间，有一定程度的写入量低峰，猜测可能是写入数据库变慢了，不过从目前得到的信息来看无法完全确定。
"pool-10-thread-12" prio=10 tid=0xd000 nid=0x1d81 runnable [0xde000]
& &java.lang.Thread.State: RUNNABLE
& & &at java.net.SocketInputStream.socketRead0(Native Method)
& & &.......
& & &at com.mysql.jdbc.util.ReadAheadInputStream.read(ReadAheadInputStream.java:189)
& & &- locked
(a com.mysql.jdbc.util.ReadAheadInputStream)
& & &at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2140)
& & &at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2626)
& &&&- locked
(a java.lang.Object)
& & &at com.mysql.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:2111)
& & &at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2407)
& & &at mons.dbcp.DelegatingStatement.executeBatch(DelegatingStatement.java:297)
& & &at mons.dbcp.DelegatingStatement.executeBatch(DelegatingStatement.java:297)
& & &.......
& & &at org.springframework.jdbc.core.JdbcTemplate.execute(JdbcTemplate.java:619)
& & &at org.springframework.jdbc.core.JdbcTemplate.batchUpdate(JdbcTemplate.java:866)
& & &.......
& & &at org.apache.mina.core.filterchain.DefaultIoFilterChain$EntryImpl$1.messageReceived(DefaultIoFilterChain.java:793)
& & &at org.apache.mina.core.filterchain.IoFilterEvent.fire(IoFilterEvent.java:71)
& & &at org.apache.mina.core.session.IoEvent.run(IoEvent.java:63)
& & &at org.apache.mina.filter.executor.OrderedThreadPoolExecutor$Worker.run(OrderedThreadPoolExecutor.java:714)
& & &at java.lang.Thread.run(Thread.java:619)
二&问题分析
& &业务代码层面:查看进程堆栈发现,用于处理 handler 的线程池全部耗尽，并且都在处理数据库的操作，导致 agent后续上报的监控数据或者心跳都不能及时被 master接受，agent 也就被hang住！
& &&数据库层面：检查数据库服务端的max_connections 为1024 远大于应用连接池配置的16。
& &分析到这里，简单来看只要加大应用程序的连接池线程数即可！但是思考一下，为什么3个多月运行平稳，反而现在出现异常？agent 等待数据被处理，说明涉及到数据库相关操作处理速度缓慢，而一般响应慢，有以下原因：
1 sql程序不够优化，需要调整索引结构或者应用访问数据库方式，比如增加缓存。
2 os 磁盘IO异常，导致访问数据慢。&&&
对于本例应用为写入型insert 居多,而无优化空间。到服务器上查看IO使用率：{数据}
avg-cpu: &%user & %nice &%system &%iowait &%steal & %idle
& & & & & && &14.31 & &0.00 & & 4.82 & & & &19.67 & &0.00 & &61.20
Device: & & rrqm/s & wrqm/s &r/s & & & &&w/s & & & rkB/s & & &wkB/s & &avgrq-sz &avgqu-sz & &&await &svctm & %util
sda & & & & &0.02 & & 143.19 & 18.47 & &199.18 &73.67 & &38.23 & &435.77 & & &3.55 & 3.22 & & 99.5
%util 已经跑满，r/s 为17 &。
我们数据库服务器的配置为 12块的300G 的SAS &盘做RAID10,最大可以支撑3k-5k & tps。
root@rac1 # megacli -LDInfo -Lall -aALL &
Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (Target Id: 0)
RAID Level: Primary-1, Secondary-0, RAID Level Qualifier-0
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disabled
查看RAID 卡的日志表明，磁盘的io策略由于RAID卡充放电的原因由WB改为WT。&
root@rac1#megacli &-FwTermLog dsply -aALL
11/08/14 &3:36:58: prCallback: PR completed for pd=0a
11/08/14 &3:36:58: PR cycle complete
11/08/14 &3:36:58: EVT#/12 &3:36:58: &35=Patrol Read complete
11/08/14 &3:36:58: Next PR scheduled to start at 11/10/12 &3:01:59&
11/08/14 &0:48:04: EVT#/12 &0:48:04: &44=Time established as 11/04/12 &0:48:04; ( seconds since power on)
11/08/14 15:30:13: EVT#/12 15:30:13:&195=BBU changing WB virtual disks to WT &---问题的原因
11/08/14 15:30:13: Change in current cache property detected for LD : 0!
11/08/14 15:30:13: EVT#/12 15:30:13: &54=Policy change on VD 00/0 to [ID=00,dcp=0d,ccp=0c,ap=0,dc=0,dbgi=0,S=0|0] from [ID=00,dcp=0d,ccp=0d,ap=0,dc=0,dbgi=0,S=0|0]
抽丝剥茧之后，明显是磁盘raid 卡充电将磁盘的写策略有write back 修改为write through ，io性能急剧下降导致应用层的线程等待问题。
& &介绍一点 RAID 卡知识
& &RAID卡都有写cache(Battery Backed Write Cache),写cache对IO性能的提升非常明显,因为掉电会丢失数据,所以必须由电池提供支持。电池会定期充放电,一般为90天左右,当发现电量低于某个阀值时,会将写cache策略从writeback置为writethrough,相当于写cache会失效,这时如果系统有大量的IO操作,可能会明显感觉到IO响应速度变慢,cpu 队列堆积系统load 飙高。
阅读(10347) | 评论(1) | 转发(0) |
相关热门文章
给主人留下些什么吧！~~
顶你！工作在一线的dba才会遇到的问题！
请登录后评论。RAID阵列写入就出错，如何检查是硬盘问题还是卡问题_百度知道}

久游无息网