CloudFlare 本周遭遇了长达 40 个小时的服务中断

目前 CloudFlare 发布了一篇博客算是初步报告,下面是报告中的一些要点。

  • 机房夜班只有保安和 1 名上班刚 1 周 的新人(夜班技术人员),没有经验丰富的电气工程师和技术人员;
  • 机房门禁没有备用电源,于是停电后进不去了 (估计后面是暴力拆门的);
  • 高压线 (12kV) 出现了接地故障导致大量设备停机保护,连发电机都被停机保护了,要恢复必须物理、手动重启;
  • 机房断路器没有备用或备用的不够,不知道是浪涌还是高压接地导致一大批断路器挂了,大半夜的不太好买断路器;
  • CloudFlare 的一些新产品并没有经过完全、严格的灾备测试,导致故障转移后并不能正常恢复。

原文