一个深夜,上线后稳稳跑了三个月、我几乎忘了它存在的服务毫无征兆全线崩溃:数据库写失败、日志写不进、临时文件创建失败、健康检查全红。我顺着这些表面错误查数据库、网络、代码,折腾大半天毫无头绪,直到登服务器敲了 df -h 看到刺眼的 100%——磁盘满了,而把它撑满的是一个从没人管、一直疯长的日志文件(单文件 98G)。根因是日志默认只往末尾追加、从不轮转就无限增长,加上线上开了 DEBUG、打全量大对象、高频请求每次都打,三个月悄悄长到 98G 撑满 100G 磁盘;磁盘是共享资源,一满所有写操作(数据库 WAL、日志、临时文件)全失败,引发五花八门看似无关实则同源的报错,这正是它难排查的原因。这篇从日志失控+磁盘满=全局崩溃、日志轮转(切割+保留N份+总量上限)/收敛级别内容/磁盘监控告警/应急正确清理的正解、从满屏症状找单一根因的排查思路、机器级共享资源耗尽速查(磁盘/inode/内存/fd/CPU)、日志最佳实践、防隐形炸弹清单与铁律,到附上一套 logrotate+磁盘告警脚本配置。核心领悟:多功能同时挂往往是一个共同底层根因,别逐个查果先查底层共享资源;很多最危险的故障是渐进累积型的,"已稳定跑很久"恰该警觉有没有东西在悄悄逼近上限;一切只增不减无人管理的东西都是定时炸弹,要设清理或上限。

我的服务平稳跑了三个月突然全线崩溃,排查发现根因竟是磁盘被日志写满了,我对着日志轮转和磁盘监控排查了大半天的复盘

那是一个让我至今心有余悸的深夜。一个上线后稳稳当当跑了三个月、我几乎快忘了它存在的服务,毫无征兆地全线崩溃了。报错五花八门:数据库写入失败、日志写不进去、临时文件创建失败、健康检查全红……我一开始顺着这些"表面错误"到处查,数据库、网络、代码,折腾了大半天毫无头绪。直到我登上服务器敲了一个 df -h,看到那个刺眼的 100% 时,所有的谜团瞬间解开:磁盘满了。而把它撑满的,是我那个从来没人管过、一直在默默疯长的日志文件。这篇就把这场"日志撑爆磁盘、拖垮整个服务"的事故,从头复盘一遍。

故障现场:满屏报错,根因却是一个 df -h

先看现场。表面是五花八门的报错,根子却是一个被写满的磁盘:

# 1. 应用日志里五花八门的报错(都是"表象"):
java.io.IOException: No space left on device      # 写文件失败
org.postgresql.util.PSQLException: could not write to file  # 数据库写失败
java.io.IOException: No space left on device (写日志自己都失败了!)
# 健康检查接口返回 500, 服务被摘流, 但重启也起不来

# 2. 我顺着表象查了半天数据库、网络、代码... 毫无头绪。

# 3. 直到登上服务器, 敲了一个 df -h:
$ df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        100G  100G    0  100% /         # ← 100%! 磁盘满了!

# 4. 找出谁占满了磁盘:
$ du -sh /var/log/myapp/*
   98G    /var/log/myapp/app.log     # ← 单个日志文件 98G !!!

# 5. 看一眼日志内容, 发现是某个高频的 DEBUG/INFO 日志在疯狂刷:
$ tail /var/log/myapp/app.log
2026-06-02 ... DEBUG 处理请求 detail={巨大的JSON}   # 每个请求都打, 还打全量
2026-06-02 ... DEBUG 处理请求 detail={巨大的JSON}
# 跑了三个月, 一直在追加, 从没切割/清理过 → 慢慢长到 98G, 撑满磁盘。

# 现象拼图:
#   - 日志文件一直 append, 没有轮转(rotation)、没有清理 → 无限增长。
#   - 三个月里它悄悄长到 98G, 把 100G 的磁盘撑满。
#   - 磁盘满 → 所有"需要写磁盘"的操作全失败:
#     写数据库(WAL/临时文件)、写日志、创建临时文件、上传缓存... 全崩。
#   - ★ 真正的根因(磁盘满)只有一个, 但它引发的"表面症状"五花八门 ——
#     这正是它难排查的原因: 你看到的全是"果", 不是"因"。

看到 df -h 那个 100% 时,我又懊恼又解脱。原来,所有那些五花八门的报错——数据库写失败、日志写失败、临时文件创建失败——都只是"表象(果)",真正的"根因(因)"只有一个:磁盘被写满了。而把 100G 磁盘撑满的,是一个从上线起就一直 append、从没轮转/清理过的日志文件,三个月里悄悄长到了 98G。磁盘一满,所有"需要写磁盘"的操作就全部失败(写数据库的 WAL/临时文件、写日志、创建临时文件……),于是引发了满屏看似无关的错误。这正是它难排查的地方:一个根因,引发了五花八门的表面症状,我顺着"果"查了半天,却没第一时间想到去看那个最朴素的"因"——磁盘空间。

第一件事:搞懂日志为什么会失控、磁盘满为什么是"全局杀手"

要解决它,得先搞懂两件事:日志为什么会无限增长,以及磁盘满为什么会引发如此广泛的崩溃。

日志失控 + 磁盘满 = 全局崩溃

# 一、日志为什么会"无限增长"?
#   - 日志默认就是"往文件末尾不断追加(append)"。
#   - 如果不做"轮转(rotation)", 它就永远只增不减, 直到撑满磁盘。
#   - 加剧因素:
#     * 日志级别太低(线上开了 DEBUG): 打了海量本不该打的细节。
#     * 单条日志太大(打印了完整请求/响应/大对象/堆栈)。
#     * 高频请求 × 每次都打 = 增长极快。
#     * 异常时疯狂打错误日志(出问题时日志量反而暴增, 雪上加霜)。

# 二、什么是"日志轮转(rotation)"?
#   - 定期把日志"切割"成多个文件, 并自动清理旧的:
#     app.log → app.log.1 → app.log.2 ... 超过N个就删最老的。
#   - 切割方式: 按大小(如每100M切一个)、按时间(如每天切一个)。
#   - 保留策略: 只保留最近N个/N天的, 旧的自动删除 → 总量有上限!
#   - 工具: logrotate(Linux)、log4j2/logback 的滚动策略、容器日志驱动。

# 三、磁盘满为什么是"全局杀手"?
#   - 磁盘是"共享资源": 几乎所有进程都可能要写它。
#   - 一旦满了, 所有"写磁盘"的操作全报 No space left on device:
#     数据库(写数据/WAL/临时表)、应用(写日志/临时文件/上传)、
#     系统(写pid/socket/缓存)... 全部瘫痪。
#   - 它不是"某个功能坏了", 而是"整个机器的写能力没了" → 全局性崩溃。
#   - 更坑: 连"想写日志记录这个错误"都写不进去 → 排查线索都没了。

# 核心: 日志不轮转就无限增长直到撑满磁盘; 磁盘是共享资源, 满了会让所有写操作
#   全失败(数据库/日志/临时文件), 引发五花八门的表面错误, 是全局性的隐形杀手。

想透这两件事,整个事故的逻辑就通了。一、日志为什么会无限增长?——日志默认就是"往文件末尾不断追加",不做轮转就永远只增不减;加剧因素有日志级别太低(线上开了 DEBUG)、单条日志太大(打印完整请求/大对象)、高频请求每次都打、异常时疯狂打错误日志。二、什么是日志轮转?——定期把日志切割成多个文件并自动清理旧的(按大小或时间切割,只保留最近 N 个/N 天,旧的自动删,总量有上限);工具有 logrotate、log4j2/logback 滚动策略、容器日志驱动。三、磁盘满为什么是"全局杀手"?——磁盘是共享资源,几乎所有进程都要写它;一旦满了,所有"写磁盘"操作全报 No space left on device(数据库、应用、系统全瘫痪);它不是"某个功能坏了",而是"整个机器的写能力没了",所以引发五花八门的表面错误;更坑的是连"想写日志记录这个错误"都写不进去,排查线索都没了。

第二件事:正解——日志轮转 + 合理级别 + 磁盘监控告警

搞懂了原理,正解就清晰了:配好日志轮转(自动切割清理)、收敛日志级别和内容、加磁盘使用率监控告警(防患于未然)。

# ====== 正解一: 配置日志轮转(rotation), 给日志总量上限 ======
# 方式A: logrotate(系统级, 适合直接写文件的应用)
# /etc/logrotate.d/myapp:
/var/log/myapp/*.log {
    daily                 # 每天切割一次
    rotate 7              # 只保留最近 7 个(7天), 旧的自动删 → 总量有上限
    size 100M            # 或: 超过100M就切(按大小)
    compress             # 旧日志压缩(gzip), 进一步省空间
    missingok            # 文件不存在不报错
    notifempty           # 空文件不切
    copytruncate         # 切割时不影响正在写的进程(或用 postrotate 重开)
}

# 方式B: 应用框架内置滚动(推荐, 更可控) —— logback 示例
# 
#   
#     app.%d{yyyy-MM-dd}.%i.log.gz
#     100MB      
#     7            
#     5GB      
#   
# 

# ====== 正解二: 收敛日志级别和内容 ======
# - 线上日志级别用 INFO/WARN, 别开 DEBUG(DEBUG留给排查时临时开)。
# - 别打印大对象/完整请求响应/敏感数据; 高频路径上少打或采样打。
# - 错误日志也要有节制(别在循环里疯狂打同一个错)。

# ====== 正解三(最关键的预防): 磁盘使用率监控 + 告警 ======
# - 监控磁盘使用率, 超过阈值(如80%)就告警, 在"满"之前就介入!
#   Prometheus: node_filesystem_avail_bytes / node_filesystem_size_bytes
#   告警规则: 磁盘使用率 > 80% 持续5分钟 → 通知。
# - 这才是根治: 让你在磁盘"快满"时就收到预警, 而不是"满了崩了"才发现。

# ====== 正解四: 容器环境的日志 ======
# - 容器日志别无限制写: 配置 docker 的 log driver 限制:
#   --log-opt max-size=100m --log-opt max-file=3
# - K8s: 节点层面配置日志轮转; 或用 sidecar 收集到外部(ELK), 别堆本地。

# ====== 正解五: 应急处理(磁盘已经满了)======
# 1. df -h 确认满了; du -sh /path/* 逐层找出谁占的。
# 2. 先清理能清的(压缩/删除旧日志、临时文件)腾出空间, 让服务先活。
# 3. 别直接 rm 正在写的日志文件(进程可能仍持有句柄, 空间不释放)!
#    用 > app.log 清空内容, 或 truncate -s 0, 或重启进程释放句柄。

# 核心: 配日志轮转(切割+保留N份+总量上限)给日志封顶 + 收敛日志级别内容
#   + 磁盘使用率监控告警(满之前预警, 根治) + 容器限制日志 + 应急正确清理。

修复的核心,是"给日志总量封顶 + 收敛日志 + 在磁盘满之前就监控告警"。正解一:配置日志轮转——用 logrotate(系统级)或框架内置滚动(如 logback 的 SizeAndTimeBasedRollingPolicy),按大小/时间切割、只保留最近 N 份、旧的自动删、还能压缩;尤其 totalSizeCap(总量上限)是关键兜底。正解二:收敛日志级别和内容——线上用 INFO/WARN 别开 DEBUG、别打大对象/完整请求、高频路径采样打、错误日志也要节制。正解三(最关键的预防):磁盘使用率监控 + 告警——超过阈值(如 80%)就告警,在"满"之前就介入;这才是根治(让你在快满时就预警,而不是满了崩了才发现)。正解四:容器日志限制(max-size/max-file,或 sidecar 收集到外部)。正解五:应急处理——先清理腾空间让服务先活;但别直接 rm 正在写的日志(进程仍持有句柄、空间不释放),要用 > app.log 清空或重启进程释放句柄。归根结底:配日志轮转给日志封顶 + 收敛级别内容 + 磁盘监控告警(满之前预警,根治) + 容器限制 + 应急正确清理。

第三件事:从"治表面错误"到"找根因"的排查思路

这次最大的教训之一,是我一开始的排查方向完全错了。我把"如何从满屏症状找到根因"梳理了一遍。

从"满屏症状"到"单一根因"的排查思路

# 我犯的错: 顺着"表面症状"一个个查
#   - 看到"数据库写失败" → 去查数据库。
#   - 看到"健康检查红" → 去查健康检查。
#   - 看到"临时文件失败" → 去查文件权限...
#   → 每个都查不出问题, 因为它们都只是"果", 不是"因"。

# 正确思路: 发现"多个看似无关的功能同时挂了", 要警觉
#   → 这往往不是"N个独立的 bug", 而是"1个共同的底层根因"!
#   → 共同根因常见的几个"嫌疑犯"(机器级的共享资源):
#     1. 磁盘满了(No space left)—— 本文。 → df -h
#     2. 内存满了(OOM)→ free -h / dmesg
#     3. 文件描述符(fd)耗尽(Too many open files)→ ulimit / lsof
#     4. CPU 跑满 / load 极高 → top
#     5. 网络/DNS 整体故障 → ping / 网络连通性
#     6. 连接数/线程池耗尽 → 各种池的监控

# 一个高效的排查心法:
#   "多个不相干的东西同时坏" ≈ "它们依赖的某个共同的底层资源坏了"。
#   → 别急着逐个查上层功能, 先检查这些"底层共享资源"的健康度!
#   → 几个命令(df -h / free -h / top / ulimit -a)能秒级排除一大片。

# 核心: 多个看似无关的功能同时崩, 往往是"一个共同的底层根因"(磁盘/内存/fd/CPU满);
#   别顺着满屏"果"逐个查, 先用 df/free/top 等查"底层共享资源", 直击"因"。

这次排查的弯路,给我上了关于"找根因"的深刻一课。我犯的错,是顺着"表面症状"一个个查——看到数据库写失败查数据库、健康检查红查健康检查、临时文件失败查权限,每个都查不出问题,因为它们都只是"果"不是"因"。而正确的思路是:当发现"多个看似无关的功能同时挂了",要立刻警觉——这往往不是 N 个独立的 bug,而是 1 个共同的底层根因!共同根因常见的"嫌疑犯"都是机器级的共享资源:磁盘满(df -h)、内存满(free -h)、fd 耗尽(ulimit/lsof)、CPU 跑满(top)、网络/DNS 故障、连接池耗尽。一个高效的排查心法:"多个不相干的东西同时坏" ≈ "它们依赖的某个共同的底层资源坏了";别急着逐个查上层功能,先用 df -h/free -h/top/ulimit -a 几个命令秒级排查底层共享资源。下面这张图,是这次日志撑爆磁盘的成因与解法:

第四件事:机器级"共享资源耗尽"排查速查

这次踩坑后,我把"多功能同时挂"时该排查的机器级共享资源整理成一张表,贴在工位上,出事先扫一遍。

资源	耗尽时的典型报错	排查命令
磁盘空间	No space left on device	df -h / du -sh *
inode	No space left(但df显示有空间!)	df -i(小文件太多耗尽inode)
内存	OOM Killed / Cannot allocate memory	free -h / dmesg \| grep -i kill
文件描述符	Too many open files	ulimit -n / lsof \| wc -l
CPU	响应极慢、load 飙高	top / uptime
线程/进程数	unable to create new native thread	ulimit -u / ps -eLf \| wc -l
连接数/端口	Cannot assign requested address	netstat -ant \| 统计

这张表,是我用一次"全线崩溃"换来的"急救扫描清单"。它列出了机器级最容易"耗尽"的共享资源,以及它们各自的报错特征和排查命令。有几个尤其阴险的:inode 耗尽时,报错也是 No space left,但 df -h 显示明明有空间(因为是 inode 满了不是字节满了),得用 df -i 才能看出来(常因小文件太多)。它给我的启发是:系统的稳定运行,依赖于一系列"有限的、共享的"底层资源(磁盘、inode、内存、fd、CPU、线程、端口……),它们中任何一个被耗尽,都会引发"看起来千奇百怪、实则同源"的故障。而这些资源,恰恰是平时最容易被忽略的——因为它们"平时一直够用",我们就默认它"永远够用",从不监控、从不设上限,直到某天它悄悄耗尽、引爆全局。这让我领悟到:对每一种"会被消耗、且共享、且有上限"的资源,都应该主动监控、设置告警、并尽量给消耗它的东西设上限(比如给日志设轮转上限、给连接设池上限)——把"资源耗尽"这类全局性故障,扼杀在"快耗尽"的预警阶段。

第五件事:日志的最佳实践

这次的导火索是日志,我也借机把日志的最佳实践系统梳理了一遍。

方面	坏做法	好做法
轮转	单文件无限追加	按大小/时间轮转+保留N份+总量上限
级别	线上开 DEBUG	线上 INFO/WARN,排查时临时调
内容	打印大对象/完整请求/敏感数据	打关键字段,脱敏,高频采样
存储	只堆在本地磁盘	集中收集到 ELK/日志服务
格式	纯文本难检索	结构化(JSON)便于查询告警
监控	日志和磁盘都不监控	磁盘使用率告警+错误日志告警

这张表,把"日志该怎么做"讲全了。核心是:日志要轮转(给总量封顶)、级别要合理(线上别 DEBUG)、内容要精炼脱敏、最好集中收集和结构化、并配上监控告警。它给我的最大启发,是对"日志"这件事的重新认识:日志是把"双刃剑"——它是排查问题的命根子,但如果不加管理,它本身就会变成一个新的故障源(撑爆磁盘、拖慢 IO、甚至泄漏敏感数据)。很多人(包括曾经的我)对日志的态度是"多打点总没错、打了就不管了",却没意识到:日志是一种会持续消耗资源(磁盘、IO、存储成本)的东西,它和代码、数据一样,是需要被"治理"的。更深一层,这件事让我体会到一个运维哲学:在系统里,任何"只增不减、无人管理"的东西,都是一颗定时炸弹——不断增长的日志、不断堆积的临时文件、不断膨胀的表、不断累积的缓存……它们平时悄无声息,却终会在某个时刻,因为"触达了某个上限"而引爆。所以,对系统里一切"会持续增长"的东西,都要主动为它设计"清理/回收/上限"机制——别让任何东西无限制地增长下去。

第六件事:上线一个服务时,我现在的"防隐形炸弹"清单

现在上线任何服务,我都会按这张图过一遍"会不会埋下隐形增长的炸弹":

这张图的精髓,是"上线前,主动找出并驯服所有'会持续增长的东西'"。第一步是列出所有会持续增长的东西:日志文件、临时/上传文件、数据库表/历史数据、缓存/会话。然后逐一给它们装上"刹车":日志配轮转上限、临时文件定期清理/设 TTL、数据库表归档/清理过期、缓存设过期+容量上限。再给机器级资源(磁盘/内存/fd)配监控告警。最后上线后定期巡检资源使用趋势(看它们是不是在悄悄、稳定地往上涨)。这套清单,让我上线服务时,从"先跑起来再说"变成了"先想清楚什么会无限增长、并给它封顶"——核心始终是:系统里一切只增不减的东西,上线前就要为它设计好清理或上限,别留隐形炸弹。

我立下的几条规矩

这场"日志撑爆磁盘"的事故,换来了我做运维/上线时,刻进骨子里的几条铁律:

日志必须配轮转。切割 + 保留 N 份 + 总量上限,绝不让单个日志无限增长。
线上日志别开 DEBUG。级别用 INFO/WARN,别打大对象/完整请求,高频路径采样。
磁盘使用率必须监控告警。超 80% 就预警,在"满"之前介入,这是根治。
多功能同时挂,先查底层共享资源。df -h / free -h / top / ulimit,别逐个查上层。
清磁盘别 rm 正在写的文件。进程持有句柄空间不释放,用 truncate/清空或重启。
一切"只增不减"的东西都是隐形炸弹。日志/临时文件/表/缓存,都要设清理或上限。
inode 也会满。报 No space 但 df -h 有空间时,用 df -i 查 inode。

附:一套可直接用的日志治理 + 磁盘告警配置

口说无凭。下面给一套可直接抄用的配置:logrotate 日志轮转 + 一个磁盘巡检告警脚本:

#!/bin/bash
# ============ 1. logrotate 配置: /etc/logrotate.d/myapp ============
cat > /etc/logrotate.d/myapp <<'EOF'
/var/log/myapp/*.log {
    daily                 # 每天切割
    rotate 7              # 保留7份(7天), 旧的自动删 -> 总量封顶
    maxsize 200M          # 单文件超200M也立即切(双保险)
    compress              # 旧日志gzip压缩
    delaycompress         # 延迟一轮压缩(最近的不压, 方便查看)
    missingok             # 文件不存在不报错
    notifempty            # 空文件不切
    copytruncate          # 切割时truncate原文件, 不打断正在写的进程
}
EOF
# 手动测试: logrotate -d /etc/logrotate.d/myapp  (-d 是 dry-run 不实际执行)
# 强制执行一次: logrotate -f /etc/logrotate.d/myapp

# ============ 2. 磁盘使用率巡检告警脚本(配 cron 定时跑)============
cat > /usr/local/bin/disk_alert.sh <<'EOF'
#!/bin/bash
THRESHOLD=80                          # 阈值: 80%
WEBHOOK="https://your-alert-webhook"  # 告警通知地址(钉钉/飞书/Slack)

# 遍历每个挂载点, 检查使用率
df -h --output=pcent,target | tail -n +2 | while read pct mount; do
    used=${pct%\%}                    # 去掉百分号
    if [ "$used" -ge "$THRESHOLD" ]; then
        msg="[磁盘告警] $(hostname) 的 $mount 使用率已达 ${used}%, 阈值${THRESHOLD}%"
        echo "$msg"
        # 发告警(curl 到 webhook)
        curl -s -X POST "$WEBHOOK" \
             -H 'Content-Type: application/json' \
             -d "{\"text\": \"$msg\"}" || true
        # 顺手打印 Top5 占空间的目录, 方便定位
        echo "Top5 大目录:"; du -sh ${mount}/* 2>/dev/null | sort -rh | head -5
    fi
done

# 额外: inode 也检查一下(它满了 df -h 看不出来!)
df -i --output=ipcent,target | tail -n +2 | while read ipct mount; do
    iused=${ipct%\%}
    if [ "$iused" -ge "$THRESHOLD" ]; then
        curl -s -X POST "$WEBHOOK" -H 'Content-Type: application/json' \
             -d "{\"text\": \"[inode告警] $(hostname) $mount inode ${iused}%\"}" || true
    fi
done
EOF
chmod +x /usr/local/bin/disk_alert.sh

# ============ 3. 加到 cron, 每10分钟巡检一次 ============
# crontab -e 添加:
#   */10 * * * * /usr/local/bin/disk_alert.sh >> /var/log/disk_alert.log 2>&1
# (注意: 这个脚本自己的日志也要纳入轮转! 别又埋一颗炸弹)

# 核心: logrotate给日志封顶(切割+保留7份+压缩) + 定时脚本巡检磁盘和inode使用率
#   超80%就告警并列出大目录; 在"磁盘满"之前就预警介入, 把全局故障扼杀在萌芽。

这套配置,把这篇文章的核心解法,落成了可以直接部署的"防炸弹装置"。它由两部分组成:logrotate 配置给日志"封顶"(每天切割、只保留 7 份、压缩旧日志、copytruncate 保证不打断正在写的进程),从源头杜绝日志无限增长;磁盘巡检脚本则是"预警雷达"——每 10 分钟检查一次磁盘和 inode 使用率,超 80% 就告警、还顺手列出最占空间的目录帮你快速定位。尤其那个 inode 检查,正是为了防住"df -h 看着有空间、却报 No space"那个阴险的坑。而脚本里那句注释——"这个脚本自己的日志也要纳入轮转,别又埋一颗炸弹"——是我特意留的自嘲:它提醒我,"防止无限增长"这件事,必须贯彻到每一个角落,连"监控告警系统自己产生的日志"都不能放过。这,正是我想用这套配置,留给每个做运维的人的最后一课:对抗"渐进式、累积型"的故障,靠的不是"出事后救火",而是提前部署好"自动封顶(轮转/上限)"和"提前预警(监控告警)"这两道防线。前者让"会增长的东西"长不到能撑爆系统的程度,后者让你在它接近危险时就收到信号、从容介入。把"防患于未然"从一句口号,变成磁盘上一个个具体的配置文件和定时任务——这,才是稳定性真正的样子。真正的稳定,从来不是运气好没出事,而是把每一颗可能引爆的炸弹,都提前拆除或装上了报警器。

写在最后

回头看,这场由"日志撑爆磁盘"引发的、把稳定运行三个月的服务全线拖垮的事故,真正教给我的,远不止"记得配日志轮转"这一个技巧。它让我对"稳定"这个词,有了更敬畏、也更立体的理解。我曾经天真地以为,一个服务"上线后能稳定跑三个月",就证明它是"稳定"的。可这次事故狠狠地告诉我:"暂时没出事"和"真正稳定",是两回事。我那个服务,从上线第一天起,就埋下了一颗"日志无限增长"的定时炸弹;它在那三个月里"看起来很稳定",不是因为它没有问题,而是因为那颗炸弹的引线(磁盘空间)还没烧到头。这让我领悟到一个关于系统稳定性的深刻道理:很多最危险的故障,不是"突发的",而是"渐进的、累积的"——它们不是某一刻突然坏掉,而是从一开始就在缓慢地走向崩溃,只是这个过程慢到让我们误以为系统"很稳定";而当它终于触达某个临界点(磁盘满、内存满、表太大查不动)时,会以一种"突然且全面"的方式爆发。所以,真正的稳定性思维,不能只满足于"当下运行正常",而要有"时间维度"的警觉:主动去寻找系统里那些"随时间单调增长"的量,审视它们"长此以往会不会触达某个上限",并提前为之设防。"它已经稳定跑了很久"非但不能让我安心,反而应该让我警觉:"在这'很久'里,有没有什么东西一直在悄悄地累积、逼近某个我没注意到的极限?"看见那些缓慢流逝的、终将耗尽的东西——这,是我用一次"三个月后的突然崩溃"换来的、关于运维、也关于"渐进式故障"的、最朴素也最深刻的领悟。如果这篇复盘,能让你下次上线服务时,顺手给日志配上轮转、给磁盘配上告警,那我对着那个 100% 的磁盘、那个 98G 的日志熬的这大半天,就值了。

—— 别看了 · 2026

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理邮箱1846861578@qq.com。

{{userData.name}}已认证

我的服务平稳跑了整整三个月却突然全线崩溃,排查到最后发现根因竟是磁盘被一个日志文件写满了,我对着日志轮转和磁盘监控告警排查了大半天的复盘