-
Kafka 顺序消费的 7 层防线:订单状态错乱事故复盘
已取消订单又变成已支付:Kafka 顺序消费错乱复盘。本文讲透 7 层防线:Producer 幂等 + Partition 路由 + 扩容稳定 + Consumer 单线程模型 + key-based 并发 + 手动 offset + 失败暂停 partition + 业务层 last_event_ts 兜底。附完整 Java 代码 + 故障注入验证。- 0
- 0
-
雪花算法时钟回拨导致主键冲突的事故复盘:4 种工程化修法对比
凌晨 NTP 回拨 1.2 秒,雪花生成器爆出 ID 重复,几百订单创建失败。本文讲透 64 位结构、4 种工程实现(等待 / clockVersion 备份位 / Redis 持久化 / 全局 INCR)、worker_id 分配、NTP 防御配置、压测对比和监控告警。附完整 Java 代码。- 0
- 0
-
ConcurrentHashMap.computeIfAbsent 嵌套调用导致 CPU 100% 的真实事故复盘
线上 Java 服务 CPU 100% 全线程卡死,jstack 看全堆在 ConcurrentHashMap.computeIfAbsent。本文讲清楚桶级 synchronized 嵌套调用的活锁原理 + 最小复现 + 5 种修法 + JMH 性能对比 + 排查 checklist。结论:缓存层一律用 Caffeine。- 0
- 0
-
MongoDB 副本集 primary 切换丢了 12 个订单的复盘:writeConcern 必须 majority
MongoDB 副本集网络抖动后丢了 12 个订单。本文讲清楚 rollback 机制、为什么默认 w:1 不安全、majority 怎么配、性能代价多少、各语言客户端代码、监控指标,以及分片集群额外的坑。附 8 条生存法则。- 0
- 0
-
Spring @Transactional 失效的 7 种真实场景 + 修法
标了 @Transactional 测试也好好的,生产却出现部分写入。本文 7 种事务失效场景:同类内部调用 / 非 public / 异常被吞 / checked exception / MyISAM / 多数据源 / Propagation 配错。每个附复现代码 + 3 种修法。- 0
- 0
-
K8s Pod OOMKilled 排查指南:6 种真实原因 + 每种修法
K8s Pod 反复 OOMKilled exit code 137。本文列 6 种真实场景:Java 堆外内存超 limits、Go 不知道 cgroup limits、Python fork 后 RSS 翻倍、Node 默认堆上限、sidecar 吃光内存、内存碎片。每种附 kubectl 命令 + 修法 + 配置模板。- 0
- 0
-
Go goroutine 泄漏:跑了 47 天 OOMKilled 后我们找到的 5 个真实场景
Go 服务跑了 47 天内存涨到 6.2GB,OOMKilled。本文复盘 goroutine 泄漏的 5 个真实场景:channel 写没人读、for-select 缺退出分支、HTTP body 没读完、time.After 滥用、WaitGroup 卡死。每个场景附最小复现 + 修法 + pprof 排查命令。- 0
- 0
-
凌晨被叫起来排查 TIME_WAIT 堆 5 万的故事:从端口耗尽到连接池治理
一台业务网关凌晨开始报 Cannot assign requested address,netstat 看到 5.6 万个 TIME_WAIT。本文复盘从端口耗尽到连接池修复的全过程,涵盖 Java/Go/Python HTTP 客户端正确写法、Nginx keepalive 配置、tcp_tw_recycle 为什么不能开,以及 6 行排查命令。- 0
- 0
-
Redis 大 key 让我们整个集群卡了 10 分钟:从排查到拆分的完整复盘
一个 800MB 的 Redis Hash 让我们演习时整个集群卡了 10 分钟。本文完整复盘:DEBUG OBJECT 看大小、HSCAN 拆分大 Hash、UNLINK 异步删除、写一个每天扫的巡检脚本。附 4 行救命排查命令。- 0
- 0
故障复盘
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!









