-
下游换了 IP 发布完成后我们死活连不上、下游明明健康重启自己就好:网络第一步 DNS 缓存导致连旧 IP 刻舟求剑的避坑复盘
这是一次下游明明好好的我却死活连不上的诡异故障。起因是我们依赖的一个下游服务做了一次发布,它换了新机器 IP 变了但对外的域名没变,本来嘛用域名访问的好处就是 IP 可以随便换域名不变。下游发布顺利完成自测一切正常,可就在它发布完成的那一刻我们的服务却开始大面积报错:调用那个下游持续地连接超时或者连接被拒绝。我赶紧检查下游服务确确实实是健康的能正常访问的,我们自己的网络代码也都没动,可我们就是连不…- 2
- 0
-
Kubernetes 工程化完全指南:从一次"node 加完 pod 一直 Pending readinessProbe 配错 endpoints 空"看懂为什么 yaml apply 远远不够
2023 年我们公司从 docker-compose 迁移到 Kubernetes 全栈上云 30 多个微服务拆 50+ deployment 第一个月顺风顺水第二个月开始事故连连平均每周 1.5 次 P1 故障凌晨被告警叫醒 5 次然后我们陆续踩了一堆坑第一种最让我傻眼一次大版本发布 deployment apply 之后 pod 一直 ImagePullBackOff 我们以为镜像没推上去重推…- 4
- 0
-
服务器突然变慢:一次 Linux 性能排查的复盘
应用服务器忽快忽慢,登上去东敲一个命令西敲一个命令,看了半天理不出头绪。事后痛定思痛,把 Linux 性能排查梳理成有顺序的"四板斧":top 看 load 与 CPU 总览定方向、区分 us/sy/wa 三种忙、free 看 available 别被 cache 骗、iostat 揪磁盘 IO、jstack/strace 钻进程内部、sar 复盘历史。- 2
- 0
-
线上 TCP CLOSE_WAIT 堆积排查实录:5 个方法定位到应用层 bug
网关 8 小时后 CLOSE_WAIT 几万个、接口大量超时。本文讲透 TCP 状态机 + 5 种诊断方法(ss/lsof/arthas/tcpdump/bpftrace)+ Apache HttpClient / Jedis / Tomcat / Netty 4 个真实泄漏案例 + 内核参数误解辟谣 + 监控告警 + 预防 checklist。- 2
- 0
-
线上服务周期性 Too many open files:fd 泄漏完整排查实录
服务跑 7 天集体崩,日志全是 Too many open files。本文写实记录排查:/proc/fd + lsof + ss + bpftrace + arthas + heapdump 定位到第三方 SDK 没 close,每天泄漏 9000 个 fd。附 Java/Go 4 种泄漏模式 + 系统层防御 + CI 检测规范。- 0
- 0
故障排查
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!





