个人意外误操作导致网站断了半个小时,简单记录了下,望大家引以为戒
故障现象:0xffff.one 全站 502 Bad Gateway
直接原因:站长触发重启,nginx, php-fpm, mysql 等服务未能成功启动
根本原因:网站数据用单独的数据盘存放,迁移服务器后,只用 mount 挂载了数据盘,忘记将其添加到 /etc/fstab,持续 283 天未重启,并忘了这件事
时间线:
- 21:55 站长 zgq354 调整 CVM 网卡配置
- 22:03 站长使用 sudo reboot 重启机器,并不断测试网卡相关问题
- 22:19 sh 同学报问题,开始排查
- 22:23 Q群出现反馈(来自 @自游自在)
- 22:25 排查发现重启后网站所在数据盘未挂载,开始恢复
- 22:27 确认已恢复
改进措施:
- 思想上提高警惕,谨慎操作生产环境,不因为 0xffff 只是个小网站而掉以轻心
- 重启前须注意检查
/etc/fstab
与 lsblk
的到的磁盘挂载列表是否一致
- 监控告警缺失,完善拨测告警的机制,及时发现中断问题(待调研实现
一句话总结:Linux 机器 mount 磁盘后,记得检查 /etc/fstab 是否有缺失