-
下游只是抖了一下,我那个"失败就立即重试三次"的客户端却把它彻底打垮了、还陷入越重试越崩的恶性循环,我对着这场重试风暴排查了大半天的复盘
我给调下游的客户端加了"失败就立即重试 3 次",自觉更健壮了。结果某次下游只是短暂抖动变慢几秒(本该自己很快恢复),却演变成下游被彻底打垮、长时间不可用,而且监控显示抖动那刻请求量不降反升暴涨好几倍。深挖才懂是"重试风暴":下游整体抖动时所有请求几乎同时失败、又几乎同时立即重试,流量瞬间放大 3~4 倍涌向本已脆弱的下游,它更慢→更多超时→更多重试→流量更…- 0
- 0
-
重试把下游打死了:重试风暴避坑复盘
这是一次好心办坏事的典型事故,也是我对重试这个看似无害的机制彻底改观的一次。起因很小:我们依赖的一个下游服务某天出现了短暂抖动,有那么几秒钟变慢了少量请求超时了,这本来是件小事下游抖一下缓一缓通常几秒就自己恢复了。可那天它不仅没恢复反而被彻底打挂了一垮就是好久,连带把我们整个服务也拖垮了。事后复盘真凶让我大跌眼镜——把下游打死的不是别人,正是我们自己为了提高成功率而精心设计的失败自动重试机制。这就…- 0
- 0
重试风暴
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


