非常抱歉,今天下午14:40-15:00左右,web服务器突然雪崩似的出现CPU 100%问题,造成博客站点无法访问(503)。由此给您带来很大的麻烦,请您谅解。
在问题出现之前,博客站点运行着5台web服务器,4台4核8G的阿里云-计算型(原独享)sn1系列II-服务器,1台8核8G的阿里云c1型系列I服务器。本来今天下午并不是一周的访问最高峰,这5台服务器绰绰有余。但14:40左右开始,某种未知的情况引起这5台服务器雪崩似的接连地出现CPU 100%。雪上加霜的是,倒下去的服务器没能很快地站起来,被负载均衡拉黑,剩下的服务器在更高的负载下更加无喘息之机,也一台接一台的倒下、被拉黑。。。
虽然我们发现后很快通过阿里云弹性伸缩增加服务器,但无济于事,弹性伸缩从开始增加服务器到服务器正常工作,大约需要5分钟左右。等弹性伸缩的服务器起来后,已有服务器已基本都倒下,它们根本顶不住,上去就倒下。。。加了2台,倒下2台。
15:00左右,引发CPU 100%问题的未知情况消失,这7台服务器的CPU也很快都恢复了正常。
就这样,一场暴风雨在炎热的周五下午袭击了园子。