持续的 Cloudflare 中断导致其许多产品瘫痪,包括该公司的仪表板和客户用来管理和读取服务配置的相关应用程序编程接口 (API)。
功能全部或部分受到影响的服务的完整列表包括 Cloudflare 仪表板、Cloudflare API、Logpush、WARP/零信任设备状态、Stream API、Workers API 和警报通知系统。
Cloudflare 表示:“这个问题正在影响所有依赖我们 API 基础设施的服务,包括警报、仪表板功能、零信任、WARP、Cloudflared、等候室、网关、Stream、Magic WAN、API Shield、Pages、Workers。”
“使用仪表板/Cloudflare API 的客户会受到影响,因为请求可能会失败和/或可能会显示错误。”
目前,客户在尝试登录其帐户时遇到问题,并在尝试访问Cloudflare 仪表板时看到“代码:10000”身份验证错误和内部服务器错误。
Cloudflare 表示,服务问题不会影响通过 Cloudflare CDN 或 Cloudflare Edge 安全功能进行的缓存文件传输。
仪表板和 API 问题背后的数据中心断电
停电两小时后,该公司透露,持续出现的问题是由于多个数据中心停电造成的。
“Cloudflare 正在评估影响数据中心的断电情况,同时对服务进行故障转移。我们将继续提供定期更新,直到问题得到解决,感谢您在我们努力缓解问题时的耐心等待,”事件报告更新称。
这是自本周初以来 Cloudflare 遭受的第二次大规模中断,第一次中断导致多个产品瘫痪,包括 Cloudflare 站点和服务(访问、CDN 缓存清除、仪表板、图像、页面、旋转门、等候室、WARP) ,工人 KV),10 月 30 日星期一。
正如该公司在两天后发布的事后分析中所解释的那样,周一的中断是由于用于部署新 Workers KV 版本的工具配置错误造成的。
Cloudflare 的 Matt Silverlock 和 Kris Evans 表示,Workers KV“被客户和 Cloudflare 团队用来管理配置数据、路由查找、静态资产包、身份验证令牌以及其他需要低延迟访问的数据”。
“在此事件期间,由于 KV 使用的新部署工具中存在错误,KV 返回了它认为有效的 HTTP 401(未经授权)状态代码,而不是请求的键值对。”
美国东部时间 11 月 2 日 20:12 更新:Cloudflare 发言人告诉 BleepingComputer,此次持续停电的根本原因是发电机故障导致设施离线而导致区域电力问题。
“我们在俄勒冈州的多个冗余数据中心运营,为 Cloudflare 的控制平面(仪表板、日志记录等)供电。出现了区域电力问题,影响了该地区的多个设施。这些设施一夜之间无法发电。然后,今天早上,多起发电机故障导致设施完全瘫痪,”发言人说。
“我们已将故障转移到灾难恢复设施,我们的大部分服务都已恢复。此次数据中心中断影响了 Cloudflare 的仪表板和 API,但并未影响流经我们全球网络的流量。我们正在与数据中心供应商合作进行调查地区停电和发电机故障的根本原因。我们希望根据我们所了解到的情况发布多个博客,并在博客发布后与您分享。”