微软云服务宕机超24小时 企业关键业务如何避免被“拖累”
提起“宕机”这个词,估计大多数企业管理层,技术人员都不会陌生。8月,微软的公有云服务以及Office365等软件,因为澳大利亚的极端天气,备用方案未能及时响应,导致澳洲用户出现了超过24小时的云服务“暂停”。
互联网时代对系统的可靠性提出了更高的要求。在未来,系统架构越来越复杂,整体数据和流量也会越来越大,关键系统往往要求每年的不可用时间不能超过53分钟,而很多事故都远远超过了故障预算。
宕机事件虽是偶发,但对于建立在底层数据流转带动业务运行,甚至企业运行的现代企业,出现一次事故的成本,愈来愈无法承受。
国际知名的项目管理软件巨头Atlassian,虽然拥有十多年SaaS服务的运维经验,6年SRE经验,以及云上业界标准常见的灾备和恢复计划,仍然在2022年4月出现了影响超700家企业用户的宕机和无法访问事故,不但没法做到事前发现、及时阻止,甚至无法在承诺服务的8.76小时内复原,更有不少企业迟迟等到14天后,才能打开自己的敏捷项目数据。
作为公有云用户,为避免使用的公有云服务影响企业业务正常运行,可以考虑增加一些措施,例如:多区域部署、备份和灾难恢复计划、自动化监控和警报、弹性架构、数据冗余、容错测试等,在不同的区域或数据中心中复制关键数据,这可以确保即使一个数据中心发生故障,仍然可以访问备份数据,降低由于公有云宕机给企业带来的损失,确保业务能够在不可避免的故障发生时继续运行。也有一种观点是采用私有云部署,拥有更大的控制权,提高物理安全性,实现定制化和性能优化,并且减少共享资源,当然私有云部署在成本投入、可伸缩性限制和维护更新上也有一些更高要求。
常见的方法是采用混合云策略,结合公有云和私有云,以在不同的需求情况下获得最佳的性能、可用性和成本效益。这样可以在降低宕机风险的同时,灵活满足不同业务需求。
国内主流的项目管理软件UniPro,其支持公有云、私有云以及混合云部署,能最大程度满足客户的行业特殊性需求,此外还可根据数据权限等敏感信息,在企业内设置分组等,最大程度上减少宕机带来的损失。