-
文件删了磁盘空间却没释放:一次 Linux inode 与文件删除机制排查复盘
磁盘 df 显示 100% 满,找到 30G 大日志 rm 掉,df 却纹丝不动还是 100%。排查梳理:df 与 du 看的根本不是一个东西、rm 删的是文件名不是数据、inode 要硬链接数和打开计数双双归零才回收、lsof 揪出已删除却被进程占用的幽灵文件、inode 耗尽是另一种磁盘满、硬链接与软链接的本质区别,以及一套磁盘空间排查纪律。- 0
- 0
-
端口在监听外面却连不上:一次 Linux 防火墙 iptables 与 firewalld 排查复盘
服务监听 8080,本机 curl 通,外部 telnet 却超时连不上,ss 明明显示在 0.0.0.0 上听着。排查梳理:监听地址 0.0.0.0 与 127.0.0.1 的天壤之别、refused 与 timeout 指向不同病根、firewalld 的 zone 与 runtime/permanent 两套配置、iptables 规则从上到下匹配即停、规则不持久化重启就丢、云服务器还有安全…- 0
- 0
-
cron 手动跑没问题定时就不跑:一次 Linux 定时任务排查复盘
备份脚本手动执行完全正常,交给 cron 定时跑却次次失败、还悄无声息。排查梳理:crontab 五个字段、cron 执行环境与登录终端的天壤之别、任务输出默认发邮件要重定向到日志、用 /var/log/cron 分清触发与否、flock 防任务重叠,以及一套定时任务排查纪律。- 0
- 0
-
load 飙到 40 但 CPU 几乎空闲:一次 Linux 负载与 CPU 排查复盘
load average 冲到 40,服务卡死,top 里 CPU 却空闲 90%。排查梳理:读懂 top 第一屏的每个数字、load average 还把 D 状态进程算了进去、CPU 真高时 top -H 揪热点线程、iowait 高指向磁盘瓶颈、进程状态 R/S/D/Z/T,以及一套负载排查纪律。- 0
- 0
-
ulimit 改了还是 Too many open files:一次 Linux 文件描述符限制排查复盘
ulimit -n 改成 65535 重启服务,依然 Too many open files。排查梳理:文件描述符是有限资源、ulimit 的 soft/hard 与作用域、systemd 服务不读 limits.conf 只认 LimitNOFILE、用 lsof 与 /proc 数 fd 找泄漏、内核全局 fs.file-max,以及一套 fd 排查纪律。- 0
- 0
-
两台机器日志时间差了 8 秒:一次 Linux 时间同步与 chrony 排查复盘
一个请求在 B 服务的日志里"收到"早于在 A 服务"发出",日志时间戳自相矛盾。排查梳理:系统时钟与硬件时钟、晶振漂移与 NTP 持续校准、chrony 的 tracking 与 sources 体检、时区错与时钟漂的区别、时间跳变的次生灾害,以及一套时间同步排查纪律。- 0
- 0
-
一个文件权限 777 还是访问不了:一次 Linux 权限与 SELinux 排查复盘
chmod 777 把权限开到最大,服务依然 Permission denied。排查梳理:rwx 三组权限是三选一不是累加、目录的 x 权限与路径每层都要能进、SELinux 是独立于 rwx 的第二套权限层、用 ls -Z 与 ausearch 锁定上下文、ACL 与特殊权限位,以及一套权限排查纪律。- 0
- 0
-
域名解析时好时坏:一次 Linux DNS 与 resolv.conf 排查复盘
同一域名同一台机器,解析一会儿成功一会儿失败。排查梳理:nsswitch 决定的解析顺序与 /etc/hosts、resolv.conf 的 nameserver 是故障转移不是负载均衡、用 dig 逐个体检 DNS 服务器、nscd 与 JVM 的 DNS 缓存坑、解析慢的优化,以及一套 DNS 排查纪律。- 0
- 0
-
一边说发了一边说没收到:一次 Linux tcpdump 抓包排查复盘
调用方说请求发了超时,被调方日志里却查无此请求。排查梳理:tcpdump 抓哪块网卡抓什么、BPF 过滤表达式、读懂 Flags 与 SYN 重传锁定丢包、抓包配合 Wireshark 分析、用 ss/mtr/iptables/conntrack 协同定位,以及一套抓包排查纪律。- 0
- 0
-
本机无法建立新连接:一次 Linux TCP 与 TIME_WAIT 排查复盘
高峰期服务狂报 Cannot assign requested address,不是地址配错,是本机端口耗尽。排查梳理:ss 与 netstat 看连接、TCP 连接状态机、TIME_WAIT 堆积耗尽临时端口、CLOSE_WAIT 堆积是代码忘了 close、端口与文件描述符上限调优,以及一套网络连接排查纪律。- 0
- 0
-
磁盘满了空间却找不到:一次 Linux 磁盘空间排查复盘
df 说磁盘 100% 满,du 把所有文件加起来却对不上,差了近 30GB。排查梳理:df 与 du 的统计口径差异、du 找大文件大目录、被删文件仍被进程占用(lsof grep deleted)、inode 耗尽这另一种磁盘满、用 truncate 和 logrotate 治本,以及一套磁盘排查纪律。- 0
- 0
-
核心服务凌晨被处决:一次 Linux 内存与 OOM Killer 排查复盘
核心服务凌晨 4 点凭空消失,应用日志却干干净净。排查梳理:dmesg 里的 OOM Killer 实锤、free 各列与该看的 available、OOM Killer 按 oom_score 选受害者、用 ps --sort=-%mem 揪出内存真凶、swap 与 swappiness、用 systemd MemoryMax 给每个服务设内存上限,以及一套内存排查纪律。- 0
- 0
-
负载飙到 50 而 CPU 却空闲:一次 Linux 系统负载排查复盘
4 核机 load 飙到 50,top 却显示 CPU 大半空闲。排查梳理:load average 三个数字与该除以核数、load 为何统计 R+D 两类进程、top 的 us/sy/id/wa/st 精读、用 vmstat/iostat 分清 CPU 型与 IO 型、pidstat 揪出打 IO 的元凶进程,以及一套负载排查纪律。- 0
- 0
-
几百个僵尸塞满进程表:一次 Linux 进程信号排查复盘
fork 不出新进程,ps 里几百个 僵尸还 kill -9 不掉。排查梳理:进程状态 R/S/D/Z/T、信号机制与 SIGTERM/SIGKILL/SIGCHLD、kill/pkill/pgrep 用法、僵尸进程的本质与为何要处理父进程、D 状态与孤儿进程,以及一套进程管理纪律。- 0
- 0
-
配了免密却还要密码:一次 Linux SSH 公钥认证排查复盘
公钥拷进了 authorized_keys,ssh 过去却仍弹密码。排查梳理:SSH 公钥认证原理、ssh-keygen 生成与 ssh-copy-id 分发、StrictModes 为何因家目录权限太松而拒绝公钥、用 ssh -v 调试认证过程、~/.ssh/config 与 ssh-agent,以及一套 SSH 安全加固纪律。- 0
- 0
-
三个月备份全部落空:一次 Linux crontab 定时任务排查复盘
配好的每日备份任务三个月一次没成功,crontab -l 却明明能看到。排查梳理:cron 体系与用户级/系统级任务、crontab 五个时间字段、cron 极简环境为何让命令找不到、给任务重定向日志让失败可见、调试不工作的 cron 任务,以及一套定时任务管理纪律。- 0
- 0
-
重启后崩溃日志全没了:一次 Linux journalctl 日志排查复盘
半夜服务崩溃,同事重启后复盘,journalctl 翻不到崩溃前的日志。排查梳理:journald 与 /var/log 两套体系、journalctl 按服务/级别/时间/开机精确查询、Storage=auto 为何让日志只活在内存、用 Storage=persistent 持久化、--vacuum 清理与 SystemMaxUse 限容,以及一套日志排查纪律。- 0
- 0
-
重启后新盘数据"蒸发"了:一次 Linux 磁盘挂载与 fstab 排查复盘
新数据盘挂到 /data 用了一个月,机房重启后数据库起不来、/data 空了。排查梳理:块设备/分区/文件系统/挂载点的关系、分区与 mkfs、mount 为何是临时挂载、/etc/fstab 字段详解与为何必须用 UUID、fstab 写错进 emergency mode 的排查,以及一套挂载管理纪律。- 0
- 0
-
find 清理脚本删错了别人的文件:一次 Linux 文件查找排查复盘
清理脚本想删 7 天前的 .tmp,却删掉了别人才建两天的配置文件,且全程不报错。排查梳理:find 的路径/条件/动作三段结构、-name 通配符为何必须加引号、-mtime 的 +N/-N/N 语义坑、按大小类型权限筛选、-delete 与 -exec 的危险与先 -print 预览,以及一套 find 使用纪律。- 0
- 0
-
rsync 一跑把对端文件搞乱了:一次 Linux 数据同步排查复盘
rsync 同步脚本跑完,备份机凭空多出一层 /backup/www/www/ 嵌套,命令一字没错。排查梳理:源路径末尾斜杠的特殊语义、-a/-v/-z/-P 等常用参数、--delete 的镜像威力与把目标删空的危险、--dry-run 动手前先演练、增量/续传/限速/排除,以及 rsync over SSH 与一套同步保命纪律。- 0
- 0
-
服务重启后没自己起来:一次 Linux systemd 排查复盘
断电演练后服务没自动起来,另一台机器服务反复重启。排查梳理:start 与 enable 是两回事、读懂 systemctl status 每一行、写对一个 .service unit 文件、Restart 策略与重启风暴、After/Wants/Requires 的依赖区别,以及 systemd 管理纪律。- 0
- 0
-
域名解析时灵时不灵:一次 Linux DNS 排查复盘
服务调外部 API 偶发超时,curl -w 拆解才发现时间全花在 DNS 解析上。排查梳理:域名变 IP 的完整链路、nsswitch 与 /etc/hosts 的优先级坑、resolv.conf 的 nameserver 顺序与 timeout/rotate、dig 指定 DNS 隔离故障、DNS 缓存与应用层缓存,以及 DNS 配置纪律。- 0
- 0
-
内存被吃光了?——一次 Linux 内存使用率排查复盘
监控告警内存使用率 95%,差点扩容,一个 free -h 发现绝大部分是 buff/cache。排查梳理:free 每一列的含义、为什么该看 available 而非 free、used 高不等于危险、RSS 与 VSZ 之别、swap 与 swappiness、page cache 与 drop_caches 的误区,以及怎么区分假告警与真泄漏。- 0
- 0
-
磁盘没满 df 却报 100%:一次 Linux 磁盘空间排查复盘
服务报 No space left on device,df 说根分区 100%,du 把整盘翻遍却对不上。排查梳理:df 与 du 为何对不上、被删除却没释放的幽灵文件、用 /proc/PID/fd 不重启释放空间、inode 耗尽、logrotate 与 copytruncate 切割日志、挂载点遮盖,以及磁盘清理纪律与告警。- 0
- 0
运维排查
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























