全部标签

GPU

从粗放推理把大模型当普通函数串行同步一个个调 GPU 利用率常年趴在十几个百分点海量并行算力白白空转大量请求却在外面排队几十秒超时昂贵算力闲置与请求超时荒谬并存 + 按最大长度悲观预留 KV cache 一个短请求也按几千 token 占满显存且预留切碎了显存导致显存明明够用却凑不出一块连续大块而 OOM + FP16 全精度原封不动把整个模型塞进显存几十上百亿参数吃掉几十上百 G 一张主流卡根本放不下勉强放下也没显存做并发 + 对涌进来的请求来者不拒全往 GPU 上死命挤洪峰一来 KV cache 瞬间挤爆显存 OOM 进程连环崩溃连容量内请求也玉石俱焚还陷入崩溃重启再崩溃死亡循环 + 必须死等整个答案几百 token 全部生成完毕才一次性整坨返回用户对着无尽旋转的加载圈干等十几几十秒不知是在干活还是卡死耐心撑不过几秒愤然离开 + 既无超时约束又无优先级区分一个用户构造的异常 prompt 让模型停不下来狂吐几千 token 单个请求死霸 GPU 槽位把后面所有正常请求全堵到超时实时对话请求和后台离线批处理请求平等排队 + 单模型单实例硬编码写死要换模型就得改代码重部署单实例挂了服务整个不可用毫无冗余固定实例数白天高峰被打爆深夜低谷昂贵 GPU 大量空转烧钱 + 推理是黑盒 GPU 利用率显存吞吐 TTFT 队列长度全然不知出了推理变慢偶尔超时只能两眼一抹黑靠猜靠重启撞运气一长串环节根本不知卡在哪一环 → 2026 现代大模型推理服务工程体系连续批处理在途请求动态组批喂满 GPU 把利用率拉满 + PagedAttention 按页管理 KV cache 用多少分多少消灭碎片化 + INT8/INT4 量化压缩单卡放下更大模型还腾出显存做并发 + 队列加并发上限加令牌桶限流把负载控制在 GPU 稳定承载内 + SSE 流式输出每生成一个 token 即时推送亚秒级见首字 + 请求级超时超预算即中止释放加优先级调度高优先级优先可抢占 + 多模型多副本加智能路由加按负载自动弹性伸缩峰扩谷缩 + TTFT/TPOT/吞吐/GPU 利用率指标大盘加全链路 TraceID 追踪 87 天战役复盘:47 套工程修法 + 7 个 P0 复盘 + 6 条工程哲学

7 人的大模型推理平台团队 87 天把一套支撑几十个大模型在线服务、三年里模型从几亿参数长到几十上百亿参数调用量从每天几千涨到每秒上千、却一直停留在把大模型当普通函数串行同步一个个调的原始推理体系——推理执行还是来一个请求就在 GPU 上把它从头到尾算完再处理下一个海量并行算力被串行任务喂不饱常年趴在十几个百分点白白空转而大量请求却在外面排着几十秒的长队超时昂贵算力闲置与请求超时荒谬地并存、显存与…
技术教程
- 22
- 0
Mores5月29日
自研 LLM 推理平台 KV cache 显存雪崩 P99 飙 47 秒 + GPU OOM 18 次 9 天复盘:PagedAttention v2 + chunked prefill + FP8 量化 KV + PriorityScheduler + swap_space 64GB + 投机解码 + TokenQuotaLimiter 6 套修法 + 12 条 LLM 推理工程纪律

2026 年 4 月,我们一组生产环境的 LLM 推理服务(自研 Claude Sonnet 4.6 + Llama 3.3 70B 双模型 + vLLM 0.6 + Triton 25.03 + 64 张 H100,日均推理请求 4200 万、企业 RAG 文档问答场景、上下文
技术教程
- 0
- 0
Mores5月27日
AI 推理服务工程化完全指南:从一次"100 并发 GPU 显存爆 OOM 服务全跪"看懂为什么 model.forward 远远不够

2024 年我们做一个 AI 视频生成业务后端用 Stable Diffusion 加 AnimateDiff 跑文本生成短视频需求是用户输入一段描述 30 秒内出 5 秒短视频原型阶段单卡 A100 跑得也挺顺 1 个请求 25 秒出图但真正上线后我们陆续踩了一堆坑第一种最让我傻眼上线第一天 100 个并发请求 GPU 显存爆掉 OOM 整个服务 crash 用户全部 500 第二种最难缠同一段…
技术教程
- 0
- 0
Mores5月24日
LLM 推理服务完全指南:从一次"GPU 利用率很低、并发一高就排长队还 OOM"看懂批处理与请求队列

2023 年我做一个大模型推理服务把一个开源大模型部署在 GPU 上包一个 HTTP 接口对外提供。第一版我做得很省事来一个请求就调一次 model.generate 推理完返回。本地一个人测了测真不错发一个请求几秒就回来响应挺快。我心里很踏实模型推理嘛包成一个 HTTP 接口来一个请求调一次 generate 不就行了。可等这个服务真正上线扛起多用户的并发请求一串问题冒了出来。第一种最先把我打懵…
技术教程
- 5
- 0
Mores5月22日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部