阿里旗下语雀宕机近10小时 企业关键业务如何避免被“云”拖累
据多位用户反馈,蚂蚁集团旗下的在线文档编辑与协同工具语雀在23日14:00~15:00之间出现大规模服务器故障,在线文档和官网目前均无法打开。在经历了近10小时的故障之后,语雀服务现已全部恢复正常,各端语雀都可以正常访问,功能也恢复。不过,对于此次故障原因,官方也进行了回应:“目前因网络故障,出现无法访问的情况。此故障不会影响用户在语雀存储的数据,不会引起数据丢失,我们正在紧急恢复中,再次抱歉给你带来的损失。”
语雀长达数小时的宕机,在网络上引发巨大讨论。在这段时间内,众多语雀用户在网上纷纷吐槽,他们对在线文档的可靠性提出质疑,提起“宕机”这个词,大多数企业管理层、技术人员都不会陌生,雷暴、地震、光纤被挖断、停电等各种情况都会导致宕机,但是面对突发情况服务商如何应对、如何减少客户的损失,是SaaS行业健康发展的一大难题。
今年早些时候,微软的公有云服务、Office365等,因为极端天气下备用方案未能及时响应,导致澳洲用户出现了超过24小时的云服务“暂停”。互联网时代对系统的可靠性提出了更高的要求。在未来,系统架构会越来越复杂,整体的数据和流量也会越来越大,关键系统往往要求每年的不可用时间不能超过53分钟,而基本上我们知道的很多事故都远远超过了故障预算。宕机事件虽然是偶发,但对于建立在高度依赖底层数据流转带动企业运营的现代企业来说,一次事故给企业带来的成本代价愈来愈高,企业愈来愈无法承受因为数据资产丢失导致的根基损失。
另一起影响较大的宕机事故是2022年4月,国际知名的项目管理软件巨头Atlassian发生一起影响超700家企业用户的宕机和无法访问事故,这家巨头即使已拥有十多年SaaS服务的运维经验、6年的SRE经验,以及具备成熟的灾备和恢复计划和经验,仍然无法做到事前发现、及时阻止,也无法兑现其承诺的服务水准——8.76小时内复原数据,导致不少企业客户直到事故发生14天后,才得以打开自己的敏捷项目数据。
不过,有难题就一定会有解决方案,这也是SaaS提供商一直在探索的课题。
对于公有云用户,为了避免使用的公有云服务影响企业业务正常运行,可以考虑以下方案:多区域部署、备份和灾难恢复计划、自动化监控和警报、弹性架构、数据冗余:在不同的区域或数据中心中复制关键数据,确保即使一个数据中心发生故障,仍然可以访问备份数据、容错测试等,以降低因为公有云宕机给企业带来的损失,并确保企业业务能够在不可避免的故障发生时继续运行。对于采用私有云部署的用户,则能拥有更大的控制权,提高物理安全性,实现定制化和性能优化,并且减少共享资源,当然私有化部署在成本投入,可伸缩性限制和维护更新上也有一些更高要求。有一种常见的方法是采用混合云策略,结合公有云和私有化,以在不同的需求情况下获得最佳的性能、可用性和成本效益。这样可以在降低宕机风险的同时,灵活地满足不同业务需求。
像国内主流的项目管理软件UniPro和知识库管理工具UniDoc,能支持以上公有云、私有化以及混合云部署,最大程度满足客户的行业特殊性需求,此外还可根据数据权限等敏感信息,在企业内设置分组等,最大程度上减少宕机带来的损失。
(项目管理软件UniPro系统界面)
(文档和知识库管理软件UniDoc系统界面)