欢庆网消息:;5月27日,一台挖掘机的一铲子,让支付宝瘫痪了。5月28日,一个“程序猿”的误删除,携程被宕机了。两个公司,一个关系到票子,一个关系到出行,用户都是上亿甚至数亿级别,出错后,确实有点鸡飞狗跳的感觉。

互联网应设“系统重要性企业”
实际上,我们的生活已经与互联网、移动互联网紧紧联系在了一起,互联网就像空气一样必不可少。但这些提供服务的网络公司似乎还没有足够意识到自己的重要性。
最近一段时间,发生故障的网站很多。5月10日晚间,陌陌科技宣布“由于网络故障,陌陌暂时无法正常使用”,引发无数宅男吐槽。次日,5月11日晚9点多,网易也宣布其骨干网络受到了攻击,导致其移动应用、游戏无法访问、刷新。
支付宝与携程的故障,看似是源于一次偶然的小错误,带来的损伤却非常大。比如支付宝2.5小时的瘫痪,如果按照商业银行的规定,就是一次特大安全事件。
根据国家有关部门对商业银行规定:中断服务时间超过30分钟,必须报告;中断时间不超过120分钟,为一般安全事件;中断时间不超过240分钟,为重大安全事件;中断时间超过240分钟,为特大安全事件。
只要想一想,支付宝3亿多用户数据一旦丢失,损失将是巨灾级的。当然,要完全杜绝挖掘机、“程序猿”之类的偶然性错误,也是不可能的。美联储支付系统、股票交易所交易系统、国有商业银行的支付系统也都曾有宕机现象。
有备才能无患,关键是建立完善的灾备系统。比如商业银行为防止系统瘫痪,会采取“多数据中心”的灾备模式。比如工行就有两处数据中心,上海是主中心,北京是备份中心,一两分钟就可以从上海切换到北京,所以不会长时间对外暂停服务;中国银联在京沪两地有三个数据中心,也可随时自动切换。银联对切换速度要求是2分钟;国际卡组织Visa在全球有四个数据中心,切换速度可以快达零秒。
支付宝也有这样的系统,他们称之为“异地多活”系统。所谓“异地多活”,是指在不同的地方设置多个数据中心,活备份数据。但即使有这个系统,支付宝的恢复也花了2个半小时。支付宝也说了,这么长时间才恢复,他们自己也不满意。
怎么提高?这里面有一个成本与责任的矛盾。一方面,备份越分布式、越充分,其采购及运营管理成本也是以数量级上升的。另一方面,当一个企业大到一定程度的时候,实际企业责任超越了股东或者员工的范围,越来越具社会属性,它的安全问题也就成为了全社会的问题。