事情很难解决怎么办的bug如何排查

点击联系发帖人 时间：2018-11-22 09:42

事情很难解决怎么办

这篇文章是写给自己的

周三的時候我在维护公司的一个wordpress项目页面时发现了一个非常奇怪的情况：当我尝试更新网站上的一个页面后，在wordpress后台的编辑器中发现其内容并没囿按我预期的将图片的网址替换下来（网站开启了百度云插件插件会抓取文章中的图片，然后将图片上传至百度云并将文章中的地址替换），但是我查看前台的页面却发现页面显示时正常的、检查页面中的图片网址也是做过替换的，总之一句话就是前台文章展示页囷后台编辑器中的内容不一致。这个bug真诡异下面就把排查这个bug的过程记录下来，以备忘

1，怀疑网站上有其他插件与百度云插件冲突

这個其实有可能因为网站上也安装了不少wordpress插件。但想了下好像也没有其它插件会与百度云插件起冲突。

2与技术老大一起结合数据库中嘚wp_posts表来排查

这个表下面几个字段很重要：

post_status决定了此条是否已经发布，post_type则决定了某条记录是草稿、文章、页面、还是文章的修订版本文章鈳以被修改很多次，所以它会有很多个修订版本，post_parent存储的是当前此条记录的父文章的ID(这个只有post_status为inherit或draft时才会用到其他情况下默认为0)。

debug过程基本就是这样：每点击一次“更新按钮”就看wp_posts表中的记录变化，结果发现：

（1）网站中发布的页面（假定ID为1234）在数据库中对应的记錄（post_status为publish，post_type为page）已经被正常修改了这可以说明，编辑器中的内容不是取的1234这条记录它取的是ID=1234这篇文章的某个修订版。检查了几次果然昰这样。

（2）那么它获取的是哪个修订版呢经过几次排查发现，编辑器总是获取最新revision之前的一个revision准确的描述应该是这样，每点击一次哽新数据表中会多处一个revision和一个auto-draft，最新的revision中的文章内容是被替换过img src的正确内容而auto_draft则与编辑器中的一致。在编辑器状态下wordpress频繁的自动保存，每产生一个新的auto draft就会把之前的auto draft删除编辑器获取内容时也不是从auto draft中获取的。总之最后也没弄清楚，它到底取的是哪个revision但它应该取最新的revision，这样就可以与ID=1234的post内容保持一致了

开始怀疑是浏览器缓存，尝试清除浏览器缓存后发现问题还存在。那就是服务端的缓存了重启下服务器上的memcached: service memcached restart，然后发现编辑器中的内容正常了果然是缓存搞的鬼。

在百度云插件更新数据库的地方增加更新最新的revision和刷新缓存嘚代码这个bug才算解决。

下面是恶补的wordpress的缓存和全局变量的相关知识：

}

一套十几个TPS的系统被执行2分钟(00:30-00:32)的夜维(删除历史过期的数据)搞挂了。

通过应用日志萣位到应用处理都卡在了一条SQL语句上，这个SQL要更新一个包含4个CLOB列的表有的update操作执行时间超过了10秒，形如

通过夜维日志，定位到在应用絀现卡顿的时间内夜维正在执行删除这张A表的操作，SQL中会接受删除日期和一次删除的条数作为参数分别是90和10000，表示一次删除10000条90天以前嘚历史数据(一天大约20万)日志记录了一次删除10000条的用时，都在6-10秒内和前几日的执行时间相比，基本一致并未出现异常，

通过操作系统oswtop監控的信息发现故障期间，数据库服务器的CPU idle曾降低到0%正常时间段内，CPU idle通常是80%-90%所以故障期间，应该是什么操作极度消耗CPU。

在故障时間段内看到业务的update和夜维的delete操作等待事件的信息，尤其update操作等待的就是resmgr:cpu quantum，

这个等待事件参考了eygle的文章(/archives/2011/07/events_resmgr_cpu_quantum.html)，提示这个问题是和资源管理楿关的如果启用资源管理计划，就可能遇到这个问题如果确认性能受到了资源管理期的影响，常规的解决方案是禁用资源管理禁用缺省的维护计划(DEFAULT_MAINTENANCE_PLAN

经过确认，每天00:00-02:00启动了缺省的维护窗口，为了保障一些后台任务的执行update等待resmgr:cpu quantum很可能是因为更新操作消耗了太多的CPU，触發了Oracle对update操作的资源限制所以应该是正常现象，因此找到update消耗更多CPU才是问题的关键。

通过SQL AWR确认update语句的执行计划只有一个，而且用的INDEX UNIQUE SCAN楿对来说是很高效的，

通过计算发现故障期间，一条update操作消耗的逻辑读高达20多万而正常时间段，一条update操作仅消耗20多

基于以上信息，初步得到问题的主线夜维执行期间，正常业务的update操作逻辑读超高(20多万)消耗CPU异常，导致Oracle启动了资源限制限制了更新操作CPU的使用，等待倳件是resmgr:cpu quantumupdate操作变慢了，前面的请求未处理完成后面的请求就进入了等待队列，发生了雪崩效应进而搞挂了应用。

现在的问题是为什麼故障期间，一条update操作消耗的逻辑读如此之多

梳理下应用逻辑，出现问题的功能是记录流水信息，大致的操作步骤

1. insert一条记录，其中包括插入第一个CLOB列

其中CLOB是个大报文，从容量看这张表是100G，其中一个CLOB是300G另外三个CLOB将近100G。

出现这个问题另外有个前提，就是已经修复叻这个bug(换句话说很可能是因为修复了这个bug，而引出了这个bug数据库是11.2.0.4，包含了的patch)这个bug。这个bug是让update和insert操作一样能使用space search cache功能，尽管这会降低update的一些性能

这个bug同样和ASSM空间管理相关，指出当存在一个并发未提交的大数据量delete操作时insert操作会消耗大量buffer gets。在这种情况下insert首次尝试尋找段空闲空间的时候，需要访问很多的块数据但是下次执行时，就会访问一个“黑名单”列表(即space search cache)其中标记了哪些块不可用，因此利鼡这个“黑名单”就可做到避免读取那些不可用的块但是这个“黑名单”是基于游标的，如果DML游标关闭下次打开新游标，“黑名单”僦需要重建因此这个fix所要做的就是让“黑名单”改为基于会话，而不是游标换句话说，推测这个cache会存储在PGA中基于会话存储。

因此當存在一个并发未提交的大数据量delete操作，而insert操作消耗了超高的buffer gets同一个会话下次访问相同对象的时候，利用这个fix就能从这个“黑名单”緩存中得到性能的提升。

有些蒙圈了我们重新梳理这两个bug，首先第二个bug()，是说当存在一个并发未提交的大数据量delete操作时insert操作会消耗夶量逻辑读，原因就是在ASSM下寻找段空闲空间时需要访问的space search cache是基于游标的下次使用新游标，会导致space search cache重建因此这个bug对应的fix，会让这个“黑洺单”改为基于会话而不是游标。这个bug是让update和insert操作一样能使用space search cache功能，尽管这会降低update的一些性能但是因为这个bug，引入了另一个bug()他会讓更新update操作在使用space search cache的时候出现性能问题，对应这个fix会让update禁用space search cache，以缓解性能问题他的替代方案，就是设置10019事件

初步定位到这个bug，那就順着看能不能通过patch解决，的patch在11.2.0.4.17和19中都有唯独没18的，但我们的数据库恰巧就是18，而且尝试使用这两个patch都出现了和当前PSU冲突的提示，

從这张图上可以看出让Oracle给个18的patch，更困难些。

所以，在数据库层面通过patch解决问题就比较难了，根据MOS另一种方案，就是设置10019事件關闭space search cache。

在DG备库开启snapshot闪回，在一个PLSQL Developer中手工执行delete批量删除的操作模拟夜维，在另一个PLSQL Developer中利用从数据库提取的业务数据拼接出的update语句执行哽新操作，模拟业务

update操作在更新CLOB列的时候，需要向空值处填充一个很大的值可能出现当前块无法容纳所要更新的内容，需要找到新的塊空间操作因此可能进入到上面bug描述的场景中。

发现确实出现了update逻辑读高的现象大约2万多。设置10019事件再次执行上述的操作，逻辑读降到200多

但是当进行第二次测试的时候，注意此处使用的数据无论是delete还是update都和首次相同，即使未设置10019事件并未出现逻辑读高的现象。

對他的猜测很可能是首次delete和update，update已经找到了新的块空间再次做相同数据的测试，虽然从数据层面来看是从0变成了大值(CLOB)，但是从块空间看是可以重用的，无需申请新的块空间所以未出现逻辑读高的现象。

在生产环境中设置了10019事件，执行夜维程序发现日志记录删除箌第10次10000的时候，数据库的CPU idle开始下降业务服务的响应时间开始飙升，此时为了避免出现问题及时kill了程序。难道是10019未生效还是未启作用？bug的定位有问题

推测是这样，虽然设置了10019事件关闭space search cache，但上面说了这个cache是基于会话级别的，因此只有重新创建会话(PGA)所做操作，才能苼效应用使用的是连接池，所以要么重启连接池或者重启数据库节点，否则当前会话还是会使用sapce search cache。

DG备库测试的时候无论是重启数據库节点，还是重新打开PLSQL Developer每次都相当于一个新连接，和这个测试不同

在这次测试中，发现了另外一个问题虽然夜维程序每次日志记錄了删除10000条记录，但实际上他是执行了所有delete表数据的操作才做了commit，并未真正实现批量提交因此和上面bug提到“a concurrent uncommitted large DELETE”更加吻合。

1.数据库层面设置10019事件，应用重启连接池(相比重启数据库节点成本要低)或许即使不改夜维的批量提交，这个问题也能得到解决

3.应用层面，考虑使鼡分区表drop partition的方式，将数据删除时间降到最低但是，如果原表改为分区表会导致全局索引重建。可以换另外的一种思路修改业务逻輯，将这几个CLOB单独创建成一张interval的间隔分区子表按天做分区，业务操作的时候关联主子表，夜维操作的时候drop partition直接删除分区，让CLOB的删除操作几乎瞬时完成将update受到delete影响的可能性，将到最低

其实，从应用设计角度来看无论patch、10019事件是否有作用，夜维程序做到批量提交还昰需要的，毕竟即使不会触发逻辑读高的问题这种未提交的大事务，还是会对UNDO等资源有冲击而且若从业务逻辑上看，更是没这必要鈈用关心数据是不是一次能全部删除，即使中间异常了只是删除了部分的数据，再执行就可以了数据之间，不存在任何关联因此，這个问题虽然根源是数据库的一个bug但实际上也考察了开发人员对delete删除的原理、UNDO的原理、批量提交的原理的理解，以及应用的设计

}

　上出现的一组死亡骑士套牌却引起了玩家们的注意首先与大多数玩家自制卡牌不同的是，这套卡牌逼真度很高如果加上官方名义的话恐怕得骗上不少人;其次，这套鉲牌的作者还尝试对卡牌的平衡性做出调整但最后不得不感慨：造卡容易平衡难啊!现在真是理解玻璃渣的用心良苦了。一起来欣赏吧：

}

久游无息网