-
从 vLLM 0.5 → 0.8 + SGLang 0.4 + TensorRT-LLM 0.13 + LangGraph 0.3 + Milvus 2.5 全栈 AI 工程化 38 天踩坑录:13 反模式 + 14 修法
52 工程师 38 天把公司 AI 基础设施从散养小作坊升级到 vLLM 0.8 + SGLang 0.4 + TensorRT-LLM 0.13 + Triton 25.02 + Llama-3.3-70B + Qwen-2.5-72B + DeepSeek-V3 + Ray 2.40 + KubeRay 1.3 + LangGraph 0.3 + LangChain 0.3 + LlamaIn…- 12
- 0
-
RAG 系统检索召回率从 92% 跌到 31% 的 11 天事故复盘:9 个排查弯路 + 三连击根因 + 5 种修法
换 embedding 模型后,RAG 召回率从 92% 跌到 31%,11 天定位出 3 个真凶:不同向量空间不能 union、12 万文档漏向量化、Reranker prefix 中英文失配。本文复盘 9 个排查弯路、5 种修法、监控体系、Hybrid Search、golden set 评估实现,以及 10 条 RAG 工程纪律。- 2
- 0
-
Embedding 模型选型与向量数据库完全指南:从一次"5 万判例 ada-002 + Pinecone 召回 62% 律师骂返回的全不沾边"看懂为什么向量库 + embedding 远远不够
2024 年我们给一家律所做案例检索系统 5 万份判例文书律师输入争议焦点比如租赁合同不可抗力免责系统返回 top10 相似案例第一版我们用 OpenAI ada-002 加 Pinecone 跑通 demo 老板拍板上线但律师用了一周就来骂街了第一种最让我傻眼 ada-002 中文效果差律师搜民法典第 703 条租赁合同定义返回的前 10 个案例里只有 2 个真正相关其他全是装修合同采购合同擦边…- 0
- 0
Milvus
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



