事件概述与影响范围
2022年12月18日,阿里云香港Region可用区C机房发生持续超10小时的大规模服务中断,该事件因机房冷却系统失效导致消防喷淋触发,造成电源柜及多列机柜进水,部分硬件设备永久性损坏。
受影响的云服务包括ECS、EBS、OSS、RDS等核心产品,波及澳门金融管理局、莲花卫视等关键基础设施运营商,以及OKX等加密货币交易平台。由于高温导致的磁盘坏道风险,部分存储服务主动停机超过7小时。
故障根本原因分析
技术团队确认事故由三级连锁故障引发:
- 冷却系统水路气阻导致主备冷机均无法正常运作
- 机房群控逻辑缺陷延缓应急启动效率
- 温度阈值设置偏差导致消防系统误触发
业务恢复进展跟踪
故障处置过程分为三个阶段:
- 09:00-12:00:尝试冷机重启失败后启动服务器降载,完成受影响ECS实例迁移
- 12:00-18:00:实施紧急排水和硬件更换,恢复核心网络设备运行
- 18:00-20:00:分批重启存储集群,完成数据完整性校验
客户赔偿与改进措施
阿里云已启动SLA赔偿程序,重点改进方向包括:
- 建立冷机系统物理隔离机制
- 升级消防系统智能温控模块
- 部署跨可用区灾备控制平面
本次事件暴露云计算基础设施设计的单点故障风险,阿里云需在硬件冗余设计、故障隔离机制和应急响应流程等方面进行系统性优化。行业专家建议关键业务系统应采用多区域部署策略以提升容灾能力。
本文由阿里云优惠网发布。发布者:编辑员。禁止采集与转载行为,违者必究。出处:https://aliyunyh.com/735030.html
其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。