全部标签

故障排查

下游换了 IP 发布完成后我们死活连不上、下游明明健康重启自己就好:网络第一步 DNS 缓存导致连旧 IP 刻舟求剑的避坑复盘

这是一次下游明明好好的我却死活连不上的诡异故障。起因是我们依赖的一个下游服务做了一次发布,它换了新机器 IP 变了但对外的域名没变,本来嘛用域名访问的好处就是 IP 可以随便换域名不变。下游发布顺利完成自测一切正常,可就在它发布完成的那一刻我们的服务却开始大面积报错:调用那个下游持续地连接超时或者连接被拒绝。我赶紧检查下游服务确确实实是健康的能正常访问的,我们自己的网络代码也都没动,可我们就是连不…
技术教程
- 2
- 0
Mores6月1日
Kubernetes 工程化完全指南:从一次"node 加完 pod 一直 Pending readinessProbe 配错 endpoints 空"看懂为什么 yaml apply 远远不够

2023 年我们公司从 docker-compose 迁移到 Kubernetes 全栈上云 30 多个微服务拆 50+ deployment 第一个月顺风顺水第二个月开始事故连连平均每周 1.5 次 P1 故障凌晨被告警叫醒 5 次然后我们陆续踩了一堆坑第一种最让我傻眼一次大版本发布 deployment apply 之后 pod 一直 ImagePullBackOff 我们以为镜像没推上去重推…
技术教程
- 4
- 0
Mores5月24日
服务器突然变慢:一次 Linux 性能排查的复盘

应用服务器忽快忽慢,登上去东敲一个命令西敲一个命令,看了半天理不出头绪。事后痛定思痛,把 Linux 性能排查梳理成有顺序的"四板斧":top 看 load 与 CPU 总览定方向、区分 us/sy/wa 三种忙、free 看 available 别被 cache 骗、iostat 揪磁盘 IO、jstack/strace 钻进程内部、sar 复盘历史。
Linux教程
- 2
- 0
Mores5月20日
线上 TCP CLOSE_WAIT 堆积排查实录:5 个方法定位到应用层 bug

网关 8 小时后 CLOSE_WAIT 几万个、接口大量超时。本文讲透 TCP 状态机 + 5 种诊断方法(ss/lsof/arthas/tcpdump/bpftrace)+ Apache HttpClient / Jedis / Tomcat / Netty 4 个真实泄漏案例 + 内核参数误解辟谣 + 监控告警 + 预防 checklist。
技术教程
- 2
- 0
Mores5月19日
线上服务周期性 Too many open files:fd 泄漏完整排查实录

服务跑 7 天集体崩,日志全是 Too many open files。本文写实记录排查:/proc/fd + lsof + ss + bpftrace + arthas + heapdump 定位到第三方 SDK 没 close,每天泄漏 9000 个 fd。附 Java/Go 4 种泄漏模式 + 系统层防御 + CI 检测规范。
技术教程
- 0
- 0
Mores5月19日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

故障排查

下游换了 IP 发布完成后我们死活连不上、下游明明健康重启自己就好:网络第一步 DNS 缓存导致连旧 IP 刻舟求剑的避坑复盘

Kubernetes 工程化完全指南:从一次"node 加完 pod 一直 Pending readinessProbe 配错 endpoints 空"看懂为什么 yaml apply 远远不够

服务器突然变慢:一次 Linux 性能排查的复盘

线上 TCP CLOSE_WAIT 堆积排查实录:5 个方法定位到应用层 bug

线上服务周期性 Too many open files:fd 泄漏完整排查实录