锂电池机房着火超30个小时,阿里云字节服务宕机,AWS趁火打劫?

  9 月 10 日,阿里云服务又宕机了。此次宕机的原因是,新加坡可用区 C 数据中心的机房发生了一场严重的火灾。火灾原因是锂电池爆炸,导致机房升温和燃烧。离谱的是,自 10 日早上 8 点到 11 日晚上 8 点,火灾持续了整整 36 小时,仍未完全扑灭。

  根据阿里云发布的事件公告,火灾发生后,阿里云新加坡地域可用区 C 网络访问出现异常,部分云产品服务出现异常。其中云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute 等关键服务受影响。

  此次阿里云服务宕机再次引发了打工人的疯狂吐槽。


据官方消息,火灾发生后,阿里云按照产品调度策略,云数据库 Redis/MongoDB/RDS MySQL、对象存储 OSS、表格存储 OTS 、云原生大数据计算服务 MaxCompute 等已陆续完成容灾切换。但部分 OSS 对象存储、数据库等产品的单 AZ 版本,需待受影响物理机柜具备重新开机条件后恢复。


直到 9 月 12 日凌晨,阿里云官方客服回复称,新加坡区域大部分受到网络影响的云产品已恢复正常服务,剩余断电的机房业务仍需等待物理条件的恢复。如现场评估后不具备原地恢复的物理条件,应急小组将执行服务器设备迁移恢复预案。

  此外据媒体报道,该数据中心不仅托管了阿里云和字节的服务器,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,也与此次火灾有关。

  在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用等。

  最搞笑的是,AWS 趁火打劫,疑似在社交平台上发帖宣传自家云服务产品,引发了不少网友评论:高端的商战有时候就是这么简单。

  总的来说,作为中国云服务领域的头部厂商,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

  数据中心火灾扑救难点

  数据中心的火灾扑救难点主要包括封闭空间、热量积累、用电量大和复杂的电气环境。为了确保网络安全中的物理安全,需要采取多层次的防护措施,包括访问控制、视频监控、环境监控和防灾设计等。同时,综合安全策略、员工培训、定期评估和演练以及安全文化建设也是确保物理安全的重要措施。

  封闭空间

  数据中心通常采用封闭式空间设计,无窗或窗户不易开启,这使得火灾时热量和烟雾难以散发,导致火势迅速蔓延,增加了扑救的难度。封闭空间不仅阻碍了热量的散发,还可能导致有毒烟雾在室内积聚,对人员和设备造成严重威胁。

  热量积累

  数据中心内部设备密集,发热量大,且由于密封环境,热量无法有效散发,导致室内温度迅速升高,增加了扑救的难度。高温环境不仅加剧了设备的损坏,还可能导致电气设备的绝缘性能下降,增加短路和火灾的风险。

  用电量大

  数据中心用电量大,线路复杂,容易发生电气火灾。此外,线路老化和绝缘保护层破损也是常见的火灾原因。大量的电气设备和高负荷运行增加了电气系统的复杂性,任何一个电气故障都可能引发连锁反应,导致火灾迅速扩散。

  复杂的电气环境

  数据中心内部线缆众多,布线复杂,电气火灾频发。电气火灾通常难以早期发现,且扑救难度大。电气环境的复杂性使得火灾预警和扑救变得更加困难,需要依赖先进的监控和灭火系统。

  数据中心物理安全最佳实践

  多层防护体系

  建立多层防护体系是确保数据中心和网络设备安全的关键,包括物理屏障、访问控制、环境控制和访客管理等。多层防护体系可以有效防止未经授权的访问和破坏,减少火灾等安全事故的发生。

  物理访问控制

  通过设置门禁系统、身份验证设备和访问记录日志,确保只有经过授权的人员才能进入重要的物理区域。严格的物理访问控制可以大大降低数据泄露和设备破坏的风险,是数据中心物理安全的基础。

  视频监控环境

  安装高清摄像头和运动检测器,对数据中心内外的活动进行实时监控,及时发现可疑行为或安全威胁。视频监控系统不仅提高了安全性,还可以在事后进行审计和分析,优化安全策略。实施温湿度控制、水浸检测和火灾报警系统,避免自然灾害或设备故障对数据中心造成严重损害。环境监控系统可以及时发现和处理环境异常,防止因环境问题导致的设备故障和火灾。

  综合安全策略

  将物理安全和网络安全纳入到整体安全计划中,确保它们相互协调。例如,安装监控摄像头时应考虑网络安全措施,如加密视频流和访问控制。综合安全策略可以确保物理安全和网络安全的有机结合,防止潜在的安全漏洞。

  员工培训和意识

  加强员工培训和意识,教育他们如何识别和应对物理和网络安全威胁,使用强密码并定期更改密码。员工的意识和行为是网络安全的重要组成部分,通过培训可以提高他们的安全意识和应对能力。

  定期安全评估和演练

  定期进行综合的安全评估和演练,发现潜在的物理和网络安全风险,并及时修复。通过定期的评估和演练,可以及时发现和解决安全隐患,提高应对突发事件的能力。

  安全文化建设

  建立强大的安全文化,确保安全意识和责任感贯穿于整个组织,每个人都应该认识到安全是每个人的责任。安全文化是确保物理安全和网络安全的基础,只有每个员工都重视安全,才能有效降低安全风险。

  注:资料来源于互联网