以史为鉴:宁夏银行7月系统瘫痪解析

2014-8-7 08:56| 发布者: joejoe0332| 查看: 3097| 评论: 0|原作者: chinastor|来自: chinastor

摘要: 这段时间，存储圈内对宁夏银行7月系统瘫痪事件讨论热烈，为什么作为在IT基础架构和系统建设都相对严谨和严格的银行会频频出现宕机等问题。可能大家还记得2013年6月工行和中国银行的两次事件。 ...

　　这段时间，存储圈内对宁夏银行7月系统瘫痪事件讨论热烈，为什么作为在IT基础架构和系统建设都相对严谨和严格的银行会频频出现宕机等问题。可能大家还记得2013年6月工行和中国银行的两次事件。

　　“6月23日，中国工商银行系统瘫痪导致全国多地工行系统柜面取款、ATM、网银等无法办理。24日，中国银行系统也短暂瘫痪，一时间金融业钱荒，银行股价暴跌，金融市场流动性紧张。”

　　对于去年发生的银行系统问题，网友讨论也比较多，归结起来，还是系统维护方面纰漏。

　　对于今年宁夏银行的系统瘫痪事件，官方消息如下

　　银行二部（2014）187号正式发全国文件，对宁夏银行事故的描述大致如下2014年7月1日，宁夏银行核心系统数据库出现故障，导致该行（含异地分支机构）存取款、转账支付、借记卡、网上银行、ATM和POS业务全部中断。

　　经初步分析，在季末结算业务量较大的情况下，因备份系统异常导致备份存储磁盘读写处理严重延时，备份与主存储数据不一致，在采取中断数据备份录像操作后，造成生产数据库损坏并宕机。因宁夏银行应急恢复处置机制严重缺失，导致系统恢复工作进展缓慢，直至7月3日5点40分核心系统才恢复服务，业务系统中断长达 37小时40分钟，其间完全依靠手工办理业务。

　　该事件的根本原因是在于该行安全生产意思薄弱、应急管理体系缺失、应急处置过程混乱。该行核心系统数据库版本严重老化，且2007年至今未购买核心数据库的维保服务，核心系统长期缺乏维护，事故发生后，无法获得系统供应商及时技术支持。系统恢复过程中，缺乏应急预案和准备，长时间无法实施有效处置，导致业务恢复缓慢，对银行运营产生较为严重影响。

　　对于这个事件的发生，网上论坛有网友开始怀疑当时在2010年进行的高大上的宁夏银行800公里灾备演练，当时号称区域性商业银行的第一次。

　　查阅资料，回忆当时演练现场，时任宁夏银行信息技术部总经理的王春表示，随着区域性商业银行的跨省发展，实施灾难备份系统已经势在必行，宁夏银现在实施成功之后，实现了宁夏银行所提出的“提升业务连续性，提升业务管理水平”的战略目标，做到了核心系统的灾难恢复的“全范围覆盖”。

　　其中演练主要包括了两种“突发情况”：数据库系统瘫痪和数据中心发生火灾——前者模拟宁夏银行生产中心数据库系统发生崩溃瘫痪的严重故障，测试根据需要启动应急响应流程，进行本地的数据库系统恢复;后者模拟生产中心发生大火，测试根据应急流程进行从银川到西安的异地切换。

　　整场演练全部在真实的生产环境进行，步骤衔接流畅，而且恢复速度让在场观摩人员无不惊叹，两个场景的演练时间加起来不过10分钟：第一场数据库瘫痪演练，4分钟成功恢复完成;第二场火灾演练，6分钟系统异地切换成功。

　　当时的IT环境是IBM AIX UNIX、Informix、EMC DMX800。

　　以上是宁夏银行2010年灾备演练情况的存储在线当时报道摘要，在整个演练过程中，飞康CDP起到了举足轻重的作用。为此，网友在论坛上评论说，“停止备份系统，竟然会导致主数据库损坏，看来FalconStor CDP ，不靠谱啊。”也有网友评论道：“系统维护没有跟上，再好的方案也会有问题。”

　　对此，阿明认为：宁夏银行本次事件发生的根本应该更多归咎在系统维护上，很多时候，大型企业或银行做过周密的预案或灾备演练之后，就放松了对系统的整体维护，这是发生问题的主要原因所在。为此，宁夏银行官方表态也是“2007年至今未购买核心数据库的维保服务，核心系统长期缺乏维护，事故发生后，无法获得系统供应商及时技术支持。”（要知道，数据库厂商很牛叉，这是圈内人士有目共睹的，既然长期不交“保护费”，自然得让你痛一下，痛定思痛之后，你就得乖乖上交数据库“保护费”了。）

　　说完今年宁夏银行这次事件之后，我们再回看一下去年工行、中行出现的系统问题，当时CSDN的夏梦竹同学找到了一位叫jaccc的IT顾问，这位顾问的看法分析很透彻，也很中肯，对当前宁夏银行出现的系统问题也有借鉴意义，大家不妨“温故知新”：

　　为什么IT系统会出问题?

　　1）现代IT系统非常复杂，当系统大到一定的程度，总会有失控的状况。世界上就从来都没有过没错误的复杂程序，问题只在于这个错误你有没有碰上而已。银行的系统是由很多不同软硬件厂商的产品拼在一起运作，复杂程度远超过普通家用电脑，这么简单的家用电脑还会死机呢....而且系统复杂到一定程度，就不是人多或者钱多就能完全解决问题的了，推荐看看《人月神话》。

　　2）要尽量不出问题，要钱，很多钱（比如中型银行建设一个过得去的容灾系统要上亿）。但出问题只是“有可能”，花的钱可是实实在在的。换了你是领导，你也不会无限制的向里面投钱。

　　3）稳定运行的最好的办法之一是不对系统进行改造。由于有新的业务要求，系统确实要不停的升级，很多银行每周都在升级，每次变动对系统的稳定运行都是一个挑战。你每天走路有时候还会摔倒，只要一动作，就有出错的可能，这就是科学。

为什么会大面积的出现问题?

　　因为三个字：大集中。最早之前，银行系统还没联网，一出问题只是某个区或者某个市。最近十多年银行业都在搞大集中：五大行除了中国银行之外的四家都已经完成了大集中。

为什么这种故障好像越来越多了？

　　以前没有微博没有微信，只要你不是倒霉的用户就不会知道出过问题。我要不是上微博也不知道工行出这么大的事。以前没有网银没有淘宝，你半夜不会买东西刷卡。用行话来说就是以前没那么多7*24的需求（一周7天，一天24小时运行）。

为什么没有应急预案或者应急预案没有起作用?

　　与电信运营商，政府行业，普通企业相比，银行是中国IT业中IT基础最好，最严谨的行业。比如有的银行还要求厂商维护人员不能操作，只能银行员工操作。

　　大的变更一定会有预案，甚至换个硬盘，改个IP这种做过几百次的操作都会有预案。但预案与真实一般都有相当差距。上面已经提到系统非常复杂，可能出现的问题如果真全部写下来，可能有几百几千分支。而且，系统的故障并不会根据你的应急预案来发生。

　　只靠应急预案真解决问题的概率比拿着《泡妞指南》泡到美眉的几率还低，应急预案的最重要的作用是应付上级监管，根据应急预案搭好可能需要的应急软硬件环境，大致理清概要思路，以及锻炼团队。真有复杂问题，还是靠牛人现场解决的多。

　　平心而论，工行的IT能力和运维水平在四大行里面不是第一就是第二了（不同的省份略有不同）。

为什么要停几个小时这么久？

　　先说定位问题的时间：从发现问题上报到IT信息中心（或者在监控系统发现问题），IT中心的人开始查系统，定位故障原因，如果定位不清还要找相关的软硬件人员到场或者远程网络支持（基于安全原因，银行大部分都不能远程网络查看系统，维护人员到数据中心也需要时间，如果还堵车.....），找出问题的根源，一小时算超快的了。类似你莫名高烧，到底是哪个器官出问题，去医院做检查做判断总需要时间吧？  解决问题就更不好说了，其实和大家的电脑一样，往往重启是最有效的方法，但很多业务系统部分出现问题是不能重启的（可能会影响别的业务系统）。至今国外各大厂商的标准维护合同，绝大部分都没有承诺修复时间。   根据手头的一份略过时的银监会突发事件应急管理规范：一个省停业6个小时以上才算I级特别重大突发事件，3小时是II级，半小时以上是III级。以管窥豹，落叶知秋，几小时真不算什么。

12 / 2 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：可穿戴设备市场.“中国系统”除了畅想还有什么?下一篇：百度诉360违反robots案将宣判:隐私安全受关注

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

以史为鉴:宁夏银行7月系统瘫痪解析

最新评论