gRPC微服务超时与重试工程化完全指南:从一次"下游慢800ms上游5个服务全部雪崩"看懂为什么加timeout远远不够-小栋博客

2023 年我们公司有一套基于 gRPC 的微服务架构十几个服务互相调用拓扑大概有三四层深接手时表面看挺平静 QPS 不算高响应时间也还行可三个月里我们陆陆续续出了几次让我刻骨铭心的故障第一次是周五晚上一个下游的搜索服务因为索引重建延迟变高从 50ms 涨到 800ms 结果上游所有依赖它的服务的线程池被打满整个调用链上的 5 个服务全部超时雪崩业务被打挂 30 分钟第二次最莫名其妙某个接口压测时性能很好上线后却频繁出现 grpc DEADLINE EXCEEDED 错误我看 trace 发现客户端设的超时是 1 秒但服务端处理时间只有 200ms 这两个数对不上后来才发现是中间网关把超时给吃了第三次最致命我们做了重试想说网络抖动重试一下就好了结果某次下游真的挂了上游每个请求重试 3 次流量瞬间放大 4 倍下游被这波重试风暴彻底压垮恢复时间从 5 分钟变成了 40 分钟第四种最隐蔽某些请求在调用链里走着走着 deadline 居然神奇地变长了我后来才意识到是中间某个服务自作主张把客户端传过来的 deadline 给重置了第五种最离谱有些慢请求把服务端的 gRPC 连接占满了健康的请求被排在队列后面也跟着超时排查时只看到所有请求都慢了看不出是被几个慢请求拖垮的我盯着这一连串问题想了很久才彻底想明白第一版错在一个根本的认知上我以为微服务超时就是给每个 RPC 调用设一个时间重试就是失败了再发一次可这个认知是错的真正能扛流量的微服务调用治理是一个 deadline 传播加熔断隔离加智能重试加资源隔离加服务端配合的精密体系少任何一环都会在某个真实故障里崩给你看本文从头梳理 gRPC 超时和重试的工作机制 deadline propagation 怎么做对重试为什么会引发雪崩熔断器要怎么配合 backoff 和 jitter 的具体公式以及一些把 gRPC 调用治理做扎实要避开的工程坑

2023 年我们公司有一套基于 gRPC 的微服务架构十几个服务互相调用拓扑大概有三四层深接手时表面看挺平静 QPS 不算高响应时间也还行可三个月里我们陆陆续续出了几次让我刻骨铭心的故障。第一次是周五晚上一个下游的搜索服务因为索引重建延迟变高从 50ms 涨到 800ms 结果上游所有依赖它的服务的线程池被打满整个调用链上的 5 个服务全部超时雪崩业务被打挂 30 分钟。第二次最莫名其妙某个接口压测时性能很好上线后却频繁出现 grpc DEADLINE_EXCEEDED 错误我看 trace 发现客户端设的超时是 1 秒但服务端处理时间只有 200ms 这两个数对不上后来才发现是中间网关把超时给吃了。第三次最致命我们做了重试想说网络抖动重试一下就好了结果某次下游真的挂了上游每个请求重试 3 次流量瞬间放大 4 倍下游被这波重试风暴彻底压垮恢复时间从 5 分钟变成了 40 分钟。第四种最隐蔽某些请求在调用链里走着走着 deadline 居然神奇地变长了我后来才意识到是中间某个服务自作主张把客户端传过来的 deadline 给重置了。第五种最离谱有些慢请求把服务端的 gRPC 连接占满了健康的请求被排在队列后面也跟着超时排查时只看到所有请求都慢了看不出是被几个慢请求拖垮的。我盯着这一连串问题想了很久才彻底想明白第一版错在一个根本的认知上我以为微服务超时就是给每个 RPC 调用设一个时间重试就是失败了再发一次可这个认知是错的真正能扛流量的微服务调用治理是一个 deadline 传播加熔断隔离加智能重试加资源隔离加服务端配合的精密体系少任何一环都会在某个真实故障里崩给你看本文从头梳理 gRPC 超时和重试的工作机制 deadline propagation 怎么做对重试为什么会引发雪崩熔断器要怎么配合 backoff 和 jitter 的具体公式以及一些把 gRPC 调用治理做扎实要避开的工程坑

问题背景:为什么 gRPC 超时与重试比想象中难

很多人对超时和重试的认识停留在客户端调用时加个 timeout 失败时 retry 几次这种程度。实际工程里这种朴素做法几乎一上线就崩。原因是:

超时只在客户端设是不够的:服务端不知道客户端已经放弃了仍然在算结果这是计算资源的浪费在链路深的场景里这种浪费会成倍放大。
重试在故障时反而是放大器:下游故障时上游每个请求重试 3 次就把故障期间的流量放大了 4 倍直接把刚要恢复的下游再压垮。
固定超时无法适配业务多样性:有些请求天然快有些天然慢一刀切的超时不是过严就是过松。
deadline 必须沿链路传播:如果调用链有 5 层每层都设 1 秒超时实际可能下游被调用时已经过了 800ms 留给它的只有 200ms 你必须传 deadline 而不是 timeout。
资源隔离做不好一个慢接口拖垮整个进程:gRPC 共享同一个连接池和线程池一个接口的慢请求会堵塞其他健康接口。
熔断和重试必须协同:熔断已经打开了还在重试就是火上浇油这两个机制必须在调用客户端层面合并设计。

一超时和 Deadline:两个完全不同的概念

很多人把超时 timeout 和 deadline 当成一回事其实它们有本质区别。Timeout 是从现在开始算我等多久这是相对时间。Deadline 是这个请求最迟必须在某个绝对时间点之前完成这是绝对时间。gRPC 在协议里传播的是 deadline 不是 timeout 这个设计的好处是链路深的场景下每一层调用都知道整个请求的剩余预算而不是每一层都重新算一遍。

import time
from contextlib import contextmanager

class Deadline:
    def __init__(self, deadline_unix_ms: int):
        self.deadline = deadline_unix_ms

    @classmethod
    def from_timeout(cls, timeout_seconds: float):
        return cls(int(time.time() * 1000) + int(timeout_seconds * 1000))

    def remaining_ms(self) -> int:
        return max(0, self.deadline - int(time.time() * 1000))

    def is_expired(self) -> bool:
        return self.remaining_ms() == 0

有了 Deadline 类我们可以在调用前用一个 context manager 显式声明剩余预算配合一个把 deadline 透出到 gRPC metadata 的辅助类调用链上的每个节点就都能知道整体的截止时间:

@contextmanager
def with_deadline(seconds: float):
    deadline = Deadline.from_timeout(seconds)
    yield deadline
    if deadline.is_expired():
        raise TimeoutError('deadline exceeded')


class GrpcCallContext:
    def __init__(self, deadline: Deadline, metadata: dict = None):
        self.deadline = deadline
        self.metadata = metadata or {}

    def to_grpc_metadata(self) -> list[tuple]:
        meta = list(self.metadata.items())
        meta.append(('grpc-timeout', f'{self.deadline.remaining_ms()}m'))
        return meta

    def check(self):
        if self.deadline.is_expired():
            raise TimeoutError('context deadline exceeded')

这个 with_deadline 模式是所有 RPC 调用都应该用的。它强制你在调用前显式设置 deadline 而不是依赖底层默认值。我见过太多代码调用 RPC 时不设超时用的是 gRPC 默认的无限等待一旦下游卡住客户端线程就永远卡在那里最终把进程的线程池打满整个服务挂掉。

二 Deadline Propagation:超时必须沿链路传播

假设你的调用链是 A 调 B B 调 C C 调 D。A 给整个链路设了 1 秒超时。如果你不传播 deadline 每一层都用自己的 1 秒超时那么:A 等 1 秒 B 算了 200ms 又调 C C 又有 1 秒预算整体可能跑出 3-4 秒早就超过了 A 的预算。正确做法是 A 传 deadline=now+1s 给 B B 调用 C 时用 deadline-elapsed=800ms C 调用 D 时再扣 D 知道自己只有 500ms 可用如果它的活儿需要 600ms 就立刻拒绝不要白干。

class PropagatingClient:
    def __init__(self, stub):
        self.stub = stub

    def call(self, method: str, request, parent_ctx: GrpcCallContext):
        parent_ctx.check()
        remaining = parent_ctx.deadline.remaining_ms()
        if remaining < 50:
            raise TimeoutError(f'剩余时间 {remaining}ms 已不足以执行新调用')
        metadata = parent_ctx.to_grpc_metadata()
        try:
            response = getattr(self.stub, method)(
                request,
                timeout=remaining / 1000,
                metadata=metadata,
            )
            return response
        except Exception as e:
            parent_ctx.check()
            raise

对应地服务端必须能从入站的 metadata 里读出 deadline 而不是用自己的固定超时否则上游传过来的预算就白瞎了:

class DeadlineAwareServer:
    def handle(self, request, context):
        grpc_timeout = context.time_remaining()
        if grpc_timeout is None or grpc_timeout < 0.05:
            context.abort(4, 'insufficient time to handle')
            return
        deadline = Deadline.from_timeout(grpc_timeout)
        ctx = GrpcCallContext(deadline=deadline)
        return self._do_work(request, ctx)

    def _do_work(self, request, ctx: GrpcCallContext):
        ctx.check()
        return None

这里有几个细节要注意。第一是预留余量调用前如果剩余预算小于 50ms 直接放弃因为光是网络往返加上序列化就可能吃掉这些时间强行调用大概率是浪费。第二是服务端必须支持 deadline 服务端拿到 deadline 后要在每个关键步骤检查时间是否还够如果数据库查询估计需要 500ms 但只剩 200ms 直接返回 deadline 不要硬干这叫 fail fast 是省资源的关键。

三重试:为什么它在故障时是放大器

重试看起来很简单失败了再试但生产环境里它常常是雪崩的导火索。设想下游服务挂了所有请求都失败你客户端每个请求重试 3 次那么故障期间的总请求量就是原来的 4 倍这一波放大流量会让刚要恢复的下游再次被压垮形成重试风暴。所以重试不是简单地 try 三次而是要带 backoff 带 jitter 带预算控制带熔断协同。

import random
from dataclasses import dataclass
from typing import Callable

@dataclass
class RetryConfig:
    max_attempts: int = 3
    initial_backoff_ms: int = 100
    max_backoff_ms: int = 5000
    backoff_multiplier: float = 2.0
    jitter_ratio: float = 0.3
    retryable_codes: tuple = (14, 4)  # UNAVAILABLE, DEADLINE_EXCEEDED 视场景定


class RetryPolicy:
    def __init__(self, config: RetryConfig):
        self.cfg = config

    def execute(self, call: Callable, ctx: GrpcCallContext):
        last_exc = None
        for attempt in range(self.cfg.max_attempts):
            ctx.check()
            try:
                return call()
            except Exception as e:
                last_exc = e
                code = getattr(e, 'code', lambda: None)()
                if code not in self.cfg.retryable_codes:
                    raise
                if attempt == self.cfg.max_attempts - 1:
                    raise
                wait_ms = self._backoff_with_jitter(attempt)
                if wait_ms > ctx.deadline.remaining_ms():
                    raise TimeoutError('剩余预算不足以再次重试')
                time.sleep(wait_ms / 1000)
        raise last_exc

    def _backoff_with_jitter(self, attempt: int) -> int:
        base = min(
            self.cfg.initial_backoff_ms * (self.cfg.backoff_multiplier ** attempt),
            self.cfg.max_backoff_ms,
        )
        jitter = base * self.cfg.jitter_ratio * (2 * random.random() - 1)
        return max(0, int(base + jitter))

这段代码里有几个关键设计。第一是 jitter 一定要加没 jitter 的重试会让所有客户端在同一时刻发起重试形成同步脉冲把下游一波打死。我们用的是对称的 jitter ratio 30% 也就是真实等待是 base 的 0.7-1.3 倍让重试分散开。第二是重试预算 wait_ms 大于 deadline 剩余时间时不要重试等到了反而被 deadline 杀掉浪费资源。第三是 retryable_codes 要谨慎定义 4xx 类错误比如 INVALID_ARGUMENT 永远不要重试因为重试一次还是错。

[mermaid]flowchart TD
A[发起 RPC 调用] --> B{是否成功}
B -->|成功| C[返回结果]
B -->|失败| D{错误码
是否可重试}
D -->|不可重试| E[直接抛错]
D -->|可重试| F{熔断器
是否打开}
F -->|打开| G[拒绝重试
fast fail]
F -->|关闭| H{剩余 deadline
是否够等下次}
H -->|不够| I[放弃重试]
H -->|够| J[backoff 加 jitter
等待后重试]
J --> A

四熔断器:与重试协同的安全网

熔断器 circuit breaker 是和重试搭配使用的关键组件。它解决的是当下游已经持续故障时不要再去打它给它恢复时间。经典的熔断器有三个状态 closed 正常通过 open 拒绝所有请求 half-open 试探性放少量请求。常见实现是基于错误率窗口在窗口内错误率超过阈值就 open 等待一段时间后进入 half-open 试探。

import threading
from enum import Enum
from collections import deque

class CircuitState(Enum):
    CLOSED = 'closed'
    OPEN = 'open'
    HALF_OPEN = 'half_open'

class CircuitBreaker:
    def __init__(self, error_rate_threshold: float = 0.5,
                 min_requests: int = 20,
                 open_duration_ms: int = 10000,
                 window_size: int = 100):
        self.error_rate_threshold = error_rate_threshold
        self.min_requests = min_requests
        self.open_duration_ms = open_duration_ms
        self.window = deque(maxlen=window_size)
        self.state = CircuitState.CLOSED
        self.opened_at = 0
        self.lock = threading.Lock()

    def allow(self) -> bool:
        with self.lock:
            if self.state == CircuitState.CLOSED:
                return True
            now = int(time.time() * 1000)
            if self.state == CircuitState.OPEN:
                if now - self.opened_at > self.open_duration_ms:
                    self.state = CircuitState.HALF_OPEN
                    return True
                return False
            return True

    def record(self, success: bool):
        with self.lock:
            self.window.append(1 if success else 0)
            if self.state == CircuitState.HALF_OPEN:
                if success:
                    self.state = CircuitState.CLOSED
                    self.window.clear()
                else:
                    self.state = CircuitState.OPEN
                    self.opened_at = int(time.time() * 1000)
                return
            if self.state == CircuitState.CLOSED and len(self.window) >= self.min_requests:
                error_rate = 1 - sum(self.window) / len(self.window)
                if error_rate >= self.error_rate_threshold:
                    self.state = CircuitState.OPEN
                    self.opened_at = int(time.time() * 1000)


class GuardedRetryingClient:
    def __init__(self, stub, retry: RetryPolicy, breaker: CircuitBreaker):
        self.stub = stub
        self.retry = retry
        self.breaker = breaker

    def call(self, method: str, request, ctx: GrpcCallContext):
        if not self.breaker.allow():
            raise RuntimeError('circuit breaker is open')

        def do_call():
            try:
                resp = getattr(self.stub, method)(request, timeout=ctx.deadline.remaining_ms() / 1000)
                self.breaker.record(success=True)
                return resp
            except Exception:
                self.breaker.record(success=False)
                raise
        return self.retry.execute(do_call, ctx)

熔断器和重试必须由同一层封装否则它们各自工作就会产生荒谬的行为。设想重试器在 retry 但熔断器已经 open 重试时熔断器拒绝重试器看到失败又退避等待又重试又被拒绝在 deadline 内反复无意义重试。正确做法是上面这个 GuardedRetryingClient 重试前先问熔断器熔断器拒绝就立刻 fast fail 不浪费 deadline 也不打扰下游。

五资源隔离:一个慢接口不应该拖垮全部

gRPC 在 HTTP/2 之上做多路复用多个 RPC 共享同一个连接。这带来一个隐患如果某个接口慢它会占用连接的并发流影响同连接上其他 RPC 的延迟。更严重的是服务端的线程池如果共享一个慢接口会把线程占满健康接口排队不到执行机会形成全局慢。隔离的做法是按接口或按租户分配独立的线程池或者用信号量限制并发。

import threading

class Bulkhead:
    def __init__(self, max_concurrent: int = 50):
        self.semaphore = threading.Semaphore(max_concurrent)
        self.max_concurrent = max_concurrent
        self.in_flight = 0
        self.rejected = 0
        self.lock = threading.Lock()

    def execute(self, fn, timeout_ms: int = 100):
        acquired = self.semaphore.acquire(timeout=timeout_ms / 1000)
        if not acquired:
            with self.lock:
                self.rejected += 1
            raise RuntimeError('bulkhead rejected: max concurrent reached')
        with self.lock:
            self.in_flight += 1
        try:
            return fn()
        finally:
            with self.lock:
                self.in_flight -= 1
            self.semaphore.release()


class PerMethodBulkheads:
    def __init__(self, default_limit: int = 50):
        self.bulkheads = {}
        self.default_limit = default_limit
        self.lock = threading.Lock()

    def get(self, method: str, limit: int = None) -> Bulkhead:
        with self.lock:
            if method not in self.bulkheads:
                self.bulkheads[method] = Bulkhead(limit or self.default_limit)
            return self.bulkheads[method]

    def call(self, method: str, fn, limit: int = None):
        return self.get(method, limit).execute(fn)

这里 Bulkhead 用信号量做并发限制每个方法独立一个 Bulkhead 互不影响。关键是 acquire 必须带 timeout 否则在所有信号量都被占用时调用方会阻塞 deadline 又被吃掉一段。设一个短超时比如 100ms 让上游知道这个方法当前忙你可以做降级而不是傻等。

六 gRPC 调用治理的工程坑:那些文档里学不到的

讲完原理来说几个真实生产里的坑。第一个坑是 deadline 在网关被吃掉很多 API Gateway 比如 envoy nginx 默认会重置或截断 grpc-timeout header 你以为客户端传了 1 秒服务端拿到的只有默认的 15 秒甚至无限必须在网关上显式配置 deadline 透传。第二个坑是客户端连接数过少 gRPC 在 HTTP/2 上多路复用单个连接的并发流上限是 100 高并发场景必须建多个 channel 比如 5-10 个否则会成为瓶颈。

class ChannelPool:
    def __init__(self, target: str, pool_size: int = 8):
        import grpc
        self.channels = [grpc.insecure_channel(target) for _ in range(pool_size)]
        self.next = 0
        self.lock = threading.Lock()

    def get(self):
        with self.lock:
            ch = self.channels[self.next]
            self.next = (self.next + 1) % len(self.channels)
            return ch

    def close(self):
        for ch in self.channels:
            ch.close()


class HealthChecker:
    def __init__(self, stub, interval_ms: int = 5000):
        self.stub = stub
        self.interval_ms = interval_ms
        self.healthy = True
        self._stop = False
        self._thread = None

    def start(self):
        def loop():
            while not self._stop:
                try:
                    self.stub.Check(None, timeout=1.0)
                    self.healthy = True
                except Exception:
                    self.healthy = False
                time.sleep(self.interval_ms / 1000)
        self._thread = threading.Thread(target=loop, daemon=True)
        self._thread.start()

    def stop(self):
        self._stop = True

第三个坑是客户端 keepalive 配置不当长时间没流量时连接被中间设备比如负载均衡或防火墙断开但客户端不知道下次请求才发现连接已死触发重连和重试给业务带来一次假超时必须配 grpc.keepalive_time_ms 主动探测。第四个坑是服务端不实现 gRPC Health Checking 协议导致 LB 健康检查不准流量打到没准备好或者已经异常的实例上必须实现标准的 grpc.health.v1.Health 服务。第五个坑是重试和幂等性任何重试都意味着同一个请求可能被服务端处理多次如果接口不是幂等的重试就会产生重复扣款重复创建订单必须在协议层面给每个请求加 idempotency-key 服务端去重。

关键概念速查

概念	含义	工程价值
Timeout	相对等待时间	客户端层面易理解但难传播
Deadline	绝对截止时间点	gRPC 协议传播的标准
Deadline Propagation	沿链路传递剩余预算	链路深的场景必备
Backoff	重试间隔递增	避免压垮恢复中的服务
Jitter	重试间隔随机化	避免重试同步脉冲
Retry Budget	重试占总流量的比例上限	整体抑制重试放大
Circuit Breaker	错误率超阈值熔断	给故障服务恢复时间
Bulkhead	资源池隔离	慢接口不拖累其他接口
Idempotency Key	请求唯一标识	重试不重复扣款
HTTP/2 Multiplexing	单连接多 stream	注意并发流上限

避坑清单

客户端调用必须显式设 deadline 否则默认无限等会把线程池打满。
deadline 必须沿调用链传播每层调用前检查剩余预算不够直接 fail fast。
重试必须带 backoff 加 jitter 不要等距重试避免同步脉冲。
重试要看错误码 4xx 类参数错误永远不重试重试也是错。
重试前要先问熔断器熔断打开就立刻 fast fail 不要再浪费。
资源隔离按方法或按租户做信号量限制一个慢接口不能拖垮其他。
网关必须透传 grpc-timeout header 不然客户端的超时设置全失效。
高并发场景客户端要建多个 channel 单 channel 受限于 HTTP/2 并发流上限。
必须配置 keepalive 否则长连接被中间设备静默断开下次请求才发现。
任何可能被重试的接口必须设计成幂等否则会出现重复扣款重复下单。

总结

超时和重试这事很多人的直觉是加个 timeout 加个 retry 就完事了这其实是把我懂这两个概念和我能在生产用好这两个概念混为一谈。前者是看懂文档后者是把一套微服务调用治理体系跑稳。模型支持你这么用不代表这么用就够 demo 阶段它确实够但真正流量来的时候它会一秒变成另一副面孔。

从原型到生产你需要做的事远不止调用 RPC 这一件事。你要设 deadline 要传播 deadline 要配置重试要避免重试风暴要熔断要隔离要应对网关 keepalive 健康检查幂等性这些角度。每一项单独看都不复杂但组合在一起才是一个能扛流量的微服务体系。少任何一项都可能在某个客户的某次请求里把你刚才省下的开发时间连本带利地还回去而且通常以全链路雪崩的形式还。

我经常用一个比喻来理解 gRPC 调用治理它有点像高速公路上的车队。每辆车都有自己的速度但要保证整个车队能安全到达你必须做的事远不止让每辆车踩油门。你要管车距 backoff 要管刹车提示 circuit breaker 要管车道分配 bulkhead 要管限速规则 deadline 要管事故响应 retry budget。任何一项做不到位都可能在某一个意外里让整支车队连环相撞。微服务调用就是这个量级的复杂度不是加个超时加个重试就能解决的。

这套架构最难的地方在于它的复杂度在 demo 阶段几乎完全暴露不了。你写个 hello world 调用测一下耗时几毫秒觉得 gRPC 真快调用真简单但真正上线你会发现 99% 的复杂度都在那 1% 的极端 case 里下游故障网络抖动慢请求重试风暴网关吃 header 长连接断开。建议任何想做 gRPC 微服务的团队上线前一定要做一遍故障演练故意把某个下游打挂看看你的调用治理是不是真的能扛住千万别等真实流量来的时候才知道你只是把问题从一处搬到了另一处。

—— 别看了 · 2026

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理邮箱1846861578@qq.com。

{{userData.name}}已认证

gRPC 微服务超时与重试工程化完全指南:从一次"下游慢 800ms 上游 5 个服务全部雪崩"看懂为什么加 timeout 远远不够

问题背景:为什么 gRPC 超时与重试比想象中难

一超时和 Deadline:两个完全不同的概念

二 Deadline Propagation:超时必须沿链路传播

三重试:为什么它在故障时是放大器

四熔断器:与重试协同的安全网

五资源隔离:一个慢接口不应该拖垮全部

六 gRPC 调用治理的工程坑:那些文档里学不到的

关键概念速查

避坑清单

总结

LLM 长上下文与 KV Cache 工程化完全指南:从一次"GPT-4-128k 单次调用烧掉 1 美元"看懂为什么 128k 窗口不等于真能处理 128k 文本

LLM 推理服务部署与显存管理完全指南:从一次"4090 单卡跑 7B 模型并发 4 个就 OOM"看懂为什么 transformers 远远不够

{{userData.name}}已认证

问题背景:为什么 gRPC 超时与重试比想象中难

一 超时和 Deadline:两个完全不同的概念

二 Deadline Propagation:超时必须沿链路传播

三 重试:为什么它在故障时是放大器

四 熔断器:与重试协同的安全网

五 资源隔离:一个慢接口不应该拖垮全部

六 gRPC 调用治理的工程坑:那些文档里学不到的

关键概念速查

避坑清单

总结

LLM 长上下文与 KV Cache 工程化完全指南:从一次"GPT-4-128k 单次调用烧掉 1 美元"看懂为什么 128k 窗口不等于真能处理 128k 文本

LLM 推理服务部署与显存管理完全指南:从一次"4090 单卡跑 7B 模型并发 4 个就 OOM"看懂为什么 transformers 远远不够

一超时和 Deadline:两个完全不同的概念

三重试:为什么它在故障时是放大器

四熔断器:与重试协同的安全网

五资源隔离:一个慢接口不应该拖垮全部