阿里云中国香港机房大规模服务中断事件发生在2022年12月18日,是阿里云运营十多年来持续时间最长的一次大规模故障。此次事件的主要原因是中国香港Region可用区C的机房冷却系统(水冷设备)出现故障,导致机房温度升高,触发消防喷淋系统,进而造成电源柜和多列机柜进水,部分硬件设备损坏。
事件影响
此次故障影响了中国香港Region可用区C的多项云服务,包括ECS、EBS、OSS、RDS等,导致大量服务器停机,业务中断范围广泛。受影响的客户包括澳门金融管理局、、莲花卫视等关键基础设施运营商,以及加密货币交易平台OKX等公司。由于故障信息发布不及时,客户对事件的了解和应对也受到了一定影响。
故障分析
1. 冷却系统故障:冷却系统缺水进气形成气阻,影响水路循环,导致主冷机服务异常。在启动备用冷机时,由于主备共用的水路循环系统气阻,导致启动失败。
2. 现场处置不及时:尽管阿里云工程师采取了应急处理措施,如冷机设备的切换与重启、辅助散热和通风、服务器降载处理等,但未能完全解决问题。
3. 消防系统误触发:由于温度升高,消防系统被误触发,导致电源柜和多列机柜进水,部分硬件设备损坏。
4. 信息透明度不足:故障信息发布不够及时透明,客户对事件的了解和应对受到了一定影响。
改进措施
阿里云针对此次事件提出了多项改进措施:
1. 优化多AZ产品高可用设计:通过优化多可用区(AZ)产品的高可用性设计,提升系统的容灾能力。
2. 加强机房基础设施管控:全面检查机房基础设施的管控系统,确保冷却系统的稳定性和可靠性。
3. 提升故障信息发布速度和透明度:改进故障信息发布机制,确保客户能够及时获取准确的信息。
4. 加强容灾演练:定期进行容灾演练,提高应急响应能力。
5. 改进应急预案:针对极小概率事件制定更高效的应急预案,避免因单点故障导致的长时间服务中断。
此次事件暴露了阿里云在基础设施管理和应急响应方面的不足,尤其是在高可用性和容灾策略上的缺陷。阿里云需要进一步加强基础设施的可靠性,优化故障处理流程,并提高信息披露的透明度,以恢复客户信任并提升服务质量。阿里云也应借鉴其他公司的成功经验,如采用气体消防系统以避免因误触发消防系统而导致的设备损坏。
本文由阿里云优惠网发布。发布者:编辑员,转转请注明出处:https://aliyunyh.com/5648.html