-
load 飙到 50 但 CPU 几乎空闲:一次 D 状态进程与 load average 的复盘
监控报警一台 8 核服务器 load average 飙到 50 多还在涨,我以为 CPU 要烧了 top 一看 CPU 却 95 空闲根本没进程烧 CPU,负载极高加 CPU 极闲自相矛盾。排查梳理:uptime 看 load 1 分钟 51,top 看 %Cpu id 95 空闲 us sy 加起来不到 5,ps -eo state 统计发现 48 个 D 状态进程,列出来全在访问一个 NFS…- 0
- 0
-
kill -9 杀不掉的进程:一次僵尸进程与父进程收尸的复盘
监控报警一台服务器进程数从两百多涨到三千多还在涨,ps aux 满屏 defunct,kill -9 一个个砸过去纹丝不动,Linux 里最狠的强制信号集体失效。排查梳理:ps 的 STAT 那列是 Z 即 Zombie 僵尸,数了一下 3100 个,看僵尸的父进程 PPID 全是 8000 一个不停 fork worker 的调度服务且它活得好好的;僵尸进程是已经退出已经死了的进程代码不跑了内存…- 0
- 0
-
一堆进程 kill -9 都杀不掉:一次 Linux 僵尸进程排查复盘
一台服务器巡检时发现挂着三十多个状态为 Z 名字带 defunct 的进程,数字还在涨,kill 杀不掉连 kill -9 也杀不掉。排查梳理:僵尸进程 Z 状态带 defunct 已经死了不是活进程,代码停了内存释放了只占一个 PID 表项;子进程退出后内核保留一个极小的尸体记着退出码等父进程来取,父进程调 wait 或 waitpid 取走后内核才彻底回收尸体和 PID;kill 和 kill…- 3
- 0
-
一屏幕僵尸进程,kill -9 都杀不掉:一次 Linux 僵尸进程排查复盘
一台服务器进程数从几百一路涨到上千,ps 里成片的 进程,kill -9 杀它们完全无效。排查梳理:defunct 即 Z 状态进程根本不是活进程,是已退出但没被父进程回收的尸体,只占一个 PID 进程表项;kill -9 杀不掉它因为信号只能作用于活进程;僵尸成因永远在父进程没调用 wait;按 ppid 归类锁定不收尸的父进程,重启父进程让 1 号进程 init 收养秒清是清场、改父进程代码正…- 2
- 0
-
几百个僵尸塞满进程表:一次 Linux 进程信号排查复盘
fork 不出新进程,ps 里几百个 僵尸还 kill -9 不掉。排查梳理:进程状态 R/S/D/Z/T、信号机制与 SIGTERM/SIGKILL/SIGCHLD、kill/pkill/pgrep 用法、僵尸进程的本质与为何要处理父进程、D 状态与孤儿进程,以及一套进程管理纪律。- 0
- 0
-
服务进程隔几天就消失:一次 Linux 进程与信号排查的复盘
后台服务隔几天就凭空消失一次,应用日志最后一行却干干净净,没有任何报错。一个进程的死法远不止"自己崩溃":被信号杀、被 OOM Killer 处决、被父进程带走。排查梳理:ps/pstree 看进程、读懂 STAT 状态、信号与退出码 137、dmesg 找 OOM、systemd 自愈兜底。- 0
- 0
进程管理
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!






