亚马逊云服务中断：摆脱不了的“云脆弱”

2025-10-21 作者: 预见大模型算力 AI服务器 #AI服务器 #算力

原文链接： https://www.yjnt111.top/article/850

10月20日，亚马逊云计算服务AWS突发全球性宕机。短短数小时，互联网的半壁江山陷入失语。从大型电商、支付平台到智能家居、物流系统，几乎所有依赖云端的服务，都被迫暂停。

此次故障通过DNS解析异常触发 “多米诺效应”，导致社交、金融、游戏、智能家居等领域的多个热门网站和应用服务中断。截至当日凌晨3时许，多数受影响服务才逐步恢复正常。

大约6小时后，亚马逊宣布系统恢复正常，并确认是一次“配置错误”导致DNS组件失效。

这起事件，被多家媒体称为“近年来最严重的云中断之一”。

官方通报，故障最早发生在美国太平洋时间10月20日12时（即北京时间10月21日凌晨3时），但早在北京时间10月20日下午，就已经出现了连接问题。包括英国税务及海关总署，英国劳埃德银行等就已经开始产生了大量连接中断问题。

AWS官方状态页面发布预警，称正调查US-EAST-1区域内多项服务的错误率与延迟上升问题。30分钟后，故障范围进一步明确，AWS确认发往该区域DynamoDB端点的请求出现明显错误率飙升，且问题已扩散至其他关联服务。

数据显示，美国东部、英国及欧洲多个地区的故障报告数短时间内极速增长，仅美国地区相关投诉量便突破2万条。英国、欧洲多个地区的故障报告也呈指数级增长。

此后，官方确认，问题源于一个内部配置错误，导致DNS解析异常。这类错误本不应在生产环境中出现，却因多层冗余验证机制失效而被放大，触发系统链式反应。AWS技术团队随后修复了故障并恢复服务。

宕机带来的不只是短暂不便。它让全球互联网再度意识到自身的脆弱性。云计算被视为基础设施的下一层电力系统——当它停摆，世界同步陷入停顿。

本次事件期间，多家企业临时切换备用服务器，甚至恢复传统自建机房。一些初创公司表示，因缺乏备份策略，直接损失当日部分广告收入。更严重的是，依赖AWS的智能设备出现了连线问题。从语音助手到家庭监控设备，部分用户报告“离线”状态，都需要手动重连。

多家电子商务、媒体和在线教育平台受到影响。一些国际银行的客户门户暂停服务，部分新闻媒体的直播流被迫中断。最典型的例子是电商与支付行业。多家跨境电商平台后台运行在AWS之上，宕机期间，订单系统无法处理。金融类App报告支付失败率显著上升。

这不是云计算第一次让世界陷入停顿。

2024年7月19日，微软Azure在一次内部更新后出现故障，波及Office 365、Teams和Outlook。当时全球数千万用户无法登录邮箱或视频会议，美国多家航空公司服务中断，事故导致飞机大量延误甚至取消，多个机场陷入瘫痪。微软事后解释为“配置推送异常”，并在12小时后完全恢复。

两者的共同点惊人一致：都源于人为配置错误，都暴露出过度集中化的脆弱，也都让企业重新思考“云是否足够安全”。

不同的是，AWS的影响范围更广。因为它不仅承载应用，还承载大量基础设施——包括物联网、AI训练节点与部分公共服务系统。其宕机的连锁反应，像多米诺骨牌般蔓延至更多数字生态环节。

此次事故的“罪魁祸首”被锁定为DNS配置错误。DNS（域名解析系统）是互联网的路标。一旦DNS出错，哪怕服务器完好，用户也无法找到它。

但问题在于，现代云架构常常将DNS深度集成于内部服务。当核心解析层出现异常，所有依赖服务都会瞬间失联。AWS内部的多层缓存机制原本能抵消风险，但由于错误配置被写入主控区域，导致自动恢复迟滞。

专家指出，这类事件暴露出“系统自动化与人为干预之间的错位”。机器足够聪明，却仍需人手。一次错误的配置推送，足以令亿级流量的基础设施陷入停顿。这不是技术能力不足，而是复杂度失控。云的规模越大，错误的放大倍数也越高。AWS的宕机是一次“复杂系统崩塌”的范例：错误不在单点，而在依赖链条的失衡。

AWS是全球市占率最高的云服务提供商。其市场份额常年保持在全球首位，超过微软Azure，甲骨文等公司，约占三分之一左右。一旦AWS出现波动，几乎所有大型互联网公司都会受到牵连。

此次宕机后，部分依赖AWS的科技股短线波动。分析人士指出，投资者正重新评估云服务供应的集中风险。另一方面，AI企业尤其受到冲击。由于大模型训练任务通常长达数小时甚至数天，任何中断都可能导致训练回滚。一些AI企业报告任务受影响，需要重新调度算力。

这类连锁反应，说明“云”已不只是存储空间，而是计算社会的神经系统。当神经短路，智能世界会瞬间停顿。

曾有学者将这种现象称为“云垄断的悖论”：当系统越集中，效率越高，但抗风险能力越低。而当越来越多国家和企业依赖同一套云基础设施，整个数字经济就暴露在同样的风险之下。

2024年微软事件后，业界曾讨论“多云战略”与“灾备架构”的重要性。但一年过去，大多数企业仍停留在单云模式。原因很现实——迁移复杂、成本高昂、兼容性差。AWS的生态绑定程度极深，从数据库到AI平台都形成“锁定效应”。

微软和亚马逊的两次事故，暴露出同一盲点：企业在追求云效率的同时，忽略了分布冗余。它们以为自动化能替代备份，以为高可用等于安全。然而现实告诉我们，系统越智能，人为错误的代价越昂贵。

这也是为什么业内人士呼吁建立“多层容灾体系”，包括跨区域、跨平台、跨供应商的混合部署。唯有如此，互联网的韧性才能提升。

云服务提供商往往追求部署速度与规模增长，容易牺牲安全缓冲。当更新节奏过快，测试覆盖不足，就为故障埋下伏笔。更长远地看，全球网络需要更分散的治理结构。当多家云服务能互相支撑，单点故障才不会变成全球危机。