随着越来越多的用户期望企业的业务能够全天候无间断运行,企业面临的业务中断风险也在不断增加。比如,由于系统复杂性的提升以及频繁的功能更新和发布,企业必须寻找有效的方法来确保业务连续性和提升韧性。
亚马逊云科技的大中华区解决方案架构总经理代闻指出,韧性是现代云服务不可或缺的一部分。韧性指的是应用程序抵抗中断或快速恢复的能力,包括与基础设施、依赖服务、错误配置、网络问题和负载激增相关的中断。
亚马逊云科技在云服务的设计与实现过程中,始终将韧性视为核心考量因素之一。例如,通过将服务的控制面和数据面分离,即使控制面出现故障,数据面仍能继续运行。这种分离设计类似于出行系统中的指挥中心与车辆运行之间的关系。代闻解释说:“控制面和数据面的隔离,就像叫车软件和实际驾驶过程是独立的。即使叫车软件出现问题,也不会影响司机将乘客送达目的地。”
此外,亚马逊云科技采用了一种称为“单元架构”的设计模式,将服务划分为多个独立的单元,每个单元不共享资源,从而进一步降低故障发生时的影响范围。
韧性是一个持续的过程,而不是一次性的任务。它需要在业务需求、可靠性、成本和系统复杂度之间找到平衡点。亚马逊云科技开发了一套韧性系统建设生命周期框架,该框架包含五个关键阶段,并强调韧性是一个持续的生命周期,需要不断重复这五个阶段以应对不断变化的环境和需求。
2022年,奇瑞捷豹路虎将关键的SAP系统迁移到了亚马逊云科技平台上,实现了数字化转型的重要一步。通过将所有SAP模块迁移到云端,奇瑞捷豹路虎不仅提升了业务的灵活性和员工的工作效率,还通过使用亚马逊云科技独有的区域多可用区特性,以及自适应跨可用区高可用集群,提出了高可用性和同城灾备融合方案。这一方案增强了系统的可靠性和稳定性,最大限度地减少了停机时间,并且确保了数据零丢失。故障切换时间也从原来的半小时缩短到了3分钟。
代闻还强调了将韧性工程融入软件开发周期的重要性,以确保系统在开发初期就具备韧性特质。为了帮助客户构建端到端的韧性,亚马逊云科技提供了一系列服务和工具,如Amazon Resilience Analysis Framework、Amazon Aurora、Amazon DynamoDB和Amazon Fault Injection Simulator,并通过五大阶段的方法论指导客户进行韧性的建设。