对于IT工程师来说,宕机并非新鲜话题,经历过一次服务器宕机,职业生涯才“完整”。但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”。
3月29日发生的突发事件,#唯品会App崩了# 冲上热搜,系统短时故障导致“加购”等功能出现异常。
6月5日,唯品会发布“关于329机房宕机故障处理公告”。公告称,3月29日(00:14-12:01)南沙IDC冷冻系统故障,导致机房设备温度快速升高宕机,造成线上商城停止服务。此次事故影响时间持续12个小时,导致唯品会业绩损失超亿元,影响客户达800万,唯品会将此次故障判定为P0级故障。
P0属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大(即使Bug本身不严重)。
从唯品会可见,机房一宕机,后果很严重。因此,通过服务器宕机监控来确保服务器稳定性和可用性非常重要。
拨测平台的服务器宕机监控(ping监控)服务,监测全国电信、联通、移动等多家运营商线路下网站及业务平台服务器是否宕机,提供每日的站点服务器丢包率曲线图,通过来自多个分布式监测点的综合统计,有效帮助用户了解IDC的网络质量。
拨测服务器宕机监控支持最高分钟级别的监控频率,让您更加精准的掌握站点运行情况,一旦站点存在异常,立即发送告警通知,让您能够及时发现和修复故障,提高服务器的可用性,减少系统中断的风险。
点此立即体验服务器宕机监控服务
原文地址:https://www.boce.com/news/1331.html