不是说有容灾和备份吗?为啥不快速切过去就好了? 这是一个很常见的误解:出了故障的时候,有备份系统和容灾系统就可以很快恢复业务。一怀愁绪,几年离索,错,错,错。 先 说备份系统,常规备份系统是不能运行业务程序的:备份一般只是把数据保存多一份或者几份,一般是在丢数据的时候才用来恢复,而且恢复的时间很多都在几小时 以上。类似大家手头只有一个avi文件,没有播放软件也没法看啊,只不过银行的“播放软件”要架设起来就复杂了..... 再 说容灾系统,强调一个连很多IT人都不清楚的事实:银行容灾系统不会轻易启用整体切换!前面已经说了,IT系统已经这么复杂了,容灾系统相当于再复制一 套,复杂性增加了不止2倍。切换起来是非常麻烦,非常伤筋动骨,惊动非常多人力物力,不是碰到大灾大难(比如地震,机房着火,恐怖分子爆炸之类)不会进行 切换。 当然平时会进行容灾切换演练,但一般不会拿核心系统来真实切换,原因是有风险。以前也出现过华东某省级行(还 是某省某运营商?记不太清楚了)切换到了容灾中心后切不回生产中心的悲催惨剧。最近西北某地农信社成功的把核心生产切到了容灾系统上,比较不简单,不过这 毕竟是独立法人的小银行,大行不是这么个玩法。 这么说吧,迄今为止,五千年来,四大行的核心容灾系统都没出现过需要 两地切换的重大灾难的场景,和准备买iPhone6的肾一样,有两个,没切过,但时刻准备着切....其实个人不太靠谱的猜想,就算停个三五天,各大行都 不会愿意全业务切换,今天这种停几小时的算个毛有啥好切的,赶快修好系统就是了。 另外,看到有不少评论说“没人敢担 风险切换到灾备节点上”。其实一般是这样的:建好容灾系统之后往往都会写一套DRP(灾难恢复计划)或者BCP(业务连续性计划),就是容灾系统启动的流 程方案,里面会规定好什么场景下由什么人拍板切换到灾备中心,一般不会真出问题才临时来拍脑袋来想,(当然临时调整也是有可能的),也不是谁说切换就谁去 背黑锅。 当然,大部分的小故障会通过双机切换,快速重启部分应用的等方式解决。但很快解决了,你们就意识不了其实已经出过故障了嘛,是不 是 有点人择原理的味道?......但总有无法快速解决的问题。补充一句,当然业界有很多新技术已经把备份高可用灾备等揉在一起了,但银行业应用还不多,这 里就不展开了。 升级要失败,快速回退不就好了嘛? 一个常见的误会:升级不成功马上回退啊。这是很理想的情形,现实的情形是这样的: 1)技术上无法回退。我举个例子,你从winxp升级到win7,升到一半,蓝屏了,或者报某个文件包找不到了。你会回退吗? 2)回退的风险更大,升级过程中很多配置,软硬件都改掉了,改不回来了,或者耗费的时间比继续升级更大。 3)硬着头皮冲过去就算超了时间的还能找个理由掩饰一下,回退了就确定升级失败了,下次继续升级的政治压力会很大。 所以实际情况中,除非可以很干净利落的回退,而且实在升级无法成功,才会回退。真的升级切割出问题会进行回退的不超过5%。 周日到底出什么问题了? 在 中国,无论出现什么IT系统问题,对外宣称总是电脑系统升级。我以前就有个变态的习惯在处理故障中途如果有空(等别人处理或者等系统回滚什么的时候)就打 呼叫中心电话,听那些美眉怎么解释系统用不了了。清一色的,100%的,毫无例外都说是电脑系统升级。当我再问为什么大白天升级啊?为什么之前不通知我们 客户啊?这时候就能体现呼叫中心的培训能力的差距了。 回到今天这事,别说我现在还没去八卦,就算知道了也不可能公开 说,这是职业操守的问题。而且有的故障的真相是查不出来的(你知道你每次生病的确切原因吗?),有的故障是查出来但不能实说(一般故障分析报告书很快就能 到竞争对手手中)。这种情况下,怎么去写故障分析报告,是一门艺术:真相不重要,达到目的才重要。这个目的有可能是大事化小,有可能是小事化大,水深着 呢。 这几天微信圈里,继续在讨论宁夏银行系统问题,据圈内人士透露,银监会正在查这件事情, IBM和飞康都在等待结果。相信事实的真相不久后将浮出水面。 阿明点评:银 行系统相对复杂,银行IT建设也相对要求严格与苛刻,在建设好了IT系统之后,只是万里长征走了第一步,后面更为重要的是长期的运行与维护,包括核心系 统、数据库的后续维保等,因此,这也是为什么某国内著名厂商舍得将设备免费送给银行测试一年多,希望得到银行采购后长期使用,只有使用之后才有价值,一旦 使用了,后续的服务收费才是真金白银。 因此,不管是什么情况,不管遇到什么变化,只有长期的服务品质不变,长期保持演练时的心态不变,即便遇到突发情况,也会比想象的情况要好一些。 稿源:chinastor |