-
我的服务跑了几个月一直好好的,某天突然各种 No space left on device,数据写不进、健康检查失败,连同节点上别的服务一起遭殃,排查发现是日志文件没配轮转涨到了几十 G 把磁盘撑满了的深度复盘
我的服务一直把日志写到一个文件 app.log,平稳跑了好几个月。某天毫无征兆地一堆故障同时爆发:报 No space left on device、数据写不进、健康检查失败被重启,连同节点上别的服务也跟着遭殃。登机器 df -h 一看磁盘 100% 满了,du 一查祸首是 app.log——它悄悄涨到了几十 GB。复盘才意识到:我只关心了把日志记下来,却从没考虑日志写到哪、会涨多大、怎么清理;一…- 0
- 0
-
一个没有配置日志轮转的服务,把一个几十 GB 的日志文件一路写到磁盘爆满,然后整台机器上的服务集体瘫痪:一次磁盘写满的深度复盘
半夜告警:一台机器上彼此不相关的几个服务同时报错崩溃,有的报无法写文件、数据库报无法写入。df -h 一看磁盘 100%、No space left on device,du 顺藤摸瓜揪出一个几十 GB 的日志文件。根因是这个服务的日志从上线起就一直往同一个文件追加、从没配过轮转,跑大半年把磁盘写满;而磁盘是整机共享资源,一旦写满,同机器所有要写盘的服务、数据库、系统全遭殃。本文讲透日志轮转与磁盘…- 0
- 0
-
我的服务平稳跑了整整三个月却突然全线崩溃,排查到最后发现根因竟是磁盘被一个日志文件写满了,我对着日志轮转和磁盘监控告警排查了大半天的复盘
一个深夜,上线后稳稳跑了三个月、我几乎忘了它存在的服务毫无征兆全线崩溃:数据库写失败、日志写不进、临时文件创建失败、健康检查全红。我顺着这些表面错误查数据库、网络、代码,折腾大半天毫无头绪,直到登服务器敲了 df -h 看到刺眼的 100%——磁盘满了,而把它撑满的是一个从没人管、一直疯长的日志文件(单文件 98G)。根因是日志默认只往末尾追加、从不轮转就无限增长,加上线上开了 DEBUG、打全量…- 0
- 0
-
我的服务某天凌晨突然全线崩溃、各种写入都报错,登上去一看磁盘被日志撑到了 100%,我对着这个被日志活活塞满的硬盘排查了大半天的复盘
我的服务跑了大半年稳如泰山,某天凌晨突然全线崩溃:写文件、写数据库全失败,SSH 登录都卡。登上去 df -h 一看磁盘 100%、一字节不剩。du 一路找下去发现是日志目录占了 45G、单个 app.log 就 43G——我的服务一直往同一个日志文件追加、从没配过日志轮转和清理,一个文件写了大半年只增不减,终于撑爆磁盘;而磁盘一满,应用写日志、数据库写 redo/binlog、系统写临时文件、S…- 0
- 0
-
日志撑爆磁盘服务全线崩:磁盘写满避坑复盘
一个安静的凌晨告警把我从睡梦炸醒:核心服务全线挂了,不是某个接口慢而是所有功能一起瘫痪,下单失败、查询报错、连健康检查都过不了。迷迷糊糊登上服务器想看日志,第一条命令就当头一棒:cannot create temp file: No space left on device,磁盘满了,df -h 一看根分区赫然 100% 一个字节空闲都没有。可这台机器磁盘几百 G 平时用量才三十几,怎么一夜就被塞…- 0
- 0
日志轮转
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!





