-
一次只升级了查询侧 embedding 模型、却忘了重建向量库的 RAG 事故,让检索召回全变成噪声、问答彻底答非所问:一次向量空间不一致的深度复盘
给 RAG 知识库换了个'更好的'embedding 模型,只改了一行查询侧配置就发布,结果问答准确率从 80% 断崖跌到 10% 以下——而且代码一个错都不报。根因是只换了查询侧模型、忘了用新模型重建整个向量库:库里是旧模型的向量、查询是新模型的向量,两个向量空间不可比,相似度沦为噪声,召回近似随机。本文讲透 embedding 向量空间为何必须建库与查询同模型,给出换模型必…- 0
- 0
-
从古老 LLM 应用体系 prompt 字符串拼接散落各处无版本管理 + 全靠模型记忆胡编幻觉满天飞 + 直接裸调原始 API 无重试无超时无降级 + 上下文硬塞超长被无声截断 + 无缓存重复 query 重复烧钱 + 同步阻塞调用用户干等几十秒 + 输出靠正则硬抠 JSON 经常解析失败 + 模型硬编码换个模型改一堆代码 + 无评估靠人肉看效果全凭感觉 + 无护栏 prompt 注入和有害输出裸奔 → 2026 现代 LLM 应用体系 prompt 模板化版本化管理 + RAG 检索增强生成消除幻觉 + LLM 网关统一接入重试超时降级多模型路由 + 上下文窗口管理与压缩 + 语义缓存省钱 + 流式 SSE 输出 + 结构化输出 function calling + 自动化 eval 与 LLM-as-judge + 输入输出 guardrails 护栏 + token 用量延迟成本全链路可观测 87 天战役复盘:47 套工程修法 + 7 个 P0 复盘 + 6 条工程哲学
13 位 AI 工程与 LLM 应用工程师 87 天把一套用了两年的粗放 LLM 应用体系——prompt 就是散落在各业务函数里的字符串拼接、同一意图好几份措辞不一改一处忘改另一处、全靠模型预训练记忆硬答不知道也一本正经地胡编乱造幻觉满天飞、直接 import 某家 SDK 裸调 API 无超时无重试无降级一家厂商抖动整个功能全废、上下文硬塞超长被无声截断关键信息丢失、无缓存海量语义相同的问题重…- 0
- 0
-
从 关键词匹配 + if-else 规则引擎 + 单机 sklearn 浅层模型 + 模型 pickle 一存了事 + 无版本管理 + 上线从不监控漂移 + 效果靠人肉抽查 远古智能体系 → 2026 大语言模型 LLM + RAG 检索增强生成 + 向量数据库语义检索 + vLLM 高吞吐推理 + LoRA 高效微调 + 结构化输出 + LLMOps 评测与可观测 现代 AI 体系 87 天战役复盘:47 套工程修法 + 7 个 P0 复盘 + 6 条工程哲学
14 位 AI 与算法平台工程师 87 天把一套跑了六年的关键词匹配 + if-else 规则引擎 + 单机 sklearn 浅层模型 + 无评测无监控的远古智能问答推荐体系,用影子模式零业务风险重构到 2026 年现代 AI 体系:RAG 检索增强让 LLM 基于真实知识开卷作答、向量数据库语义检索告别关键词死板匹配、vLLM 高吞吐推理扛在线并发、LoRA 低成本微调对齐业务不破坏通用能力、结…- 2
- 0
-
Embedding 模型选型与向量数据库完全指南:从一次"5 万判例 ada-002 + Pinecone 召回 62% 律师骂返回的全不沾边"看懂为什么向量库 + embedding 远远不够
2024 年我们给一家律所做案例检索系统 5 万份判例文书律师输入争议焦点比如租赁合同不可抗力免责系统返回 top10 相似案例第一版我们用 OpenAI ada-002 加 Pinecone 跑通 demo 老板拍板上线但律师用了一周就来骂街了第一种最让我傻眼 ada-002 中文效果差律师搜民法典第 703 条租赁合同定义返回的前 10 个案例里只有 2 个真正相关其他全是装修合同采购合同擦边…- 0
- 0
-
向量数据库选型工程化完全指南:从一次"500 万向量 OOM 服务半夜炸醒运维"看懂为什么 pip install 远远不够
2024 年初我们做一个企业知识库 RAG 应用文档量 50 万 chunk 量 500 万向量维度 1536 OpenAI ada-002 选型时我看了一圈向量数据库 Pinecone 商业版贵 Milvus 太重 Chroma 太轻 Weaviate 看起来不错 Qdrant 性能 benchmark 漂亮我拍板选了 Qdrant 觉得开源高性能社区活跃用了一周本地 demo 检索 50ms …- 6
- 0
-
Embedding 与向量检索工程化完全指南:从一次"AI 搜索把 Nginx 文档召回成 Apache 配置"看懂为什么纯向量搜索不够
2024 年我接手了一个内部知识库搜索的项目业务诉求很直白把公司过去十年的几万篇技术文档变成 AI 能读懂的样子员工提问时返回最相关的几篇我第一反应是这事不难嘛把每篇文档丢给 embedding 模型生成向量塞进 Pinecone 查询时把问题向量化做近邻搜索就完了原型一周做完跑几个问题效果不错心里很笃定向量检索嘛就是 embedding 加余弦相似度可等真把这套上线一串问题冒了出来第一种最先把我…- 0
- 0
-
RAG 检索增强生成完全指南:从一次"知识库问答系统答非所问还编造"看懂为什么 RAG 不是切块加搜索
2024 年我给一个企业知识库做问答系统把公司几千份文档灌进去让员工用自然语言提问系统找出相关内容用大模型生成回答这是个典型的 RAG 检索增强生成场景第一版我做得很顺手用一个开源切块工具把所有文档按 500 字一段切开每一段算一个向量塞进向量数据库用户提问时把问题也算成向量从库里取相似度最高的 top-5 块拼成一段长上下文塞给大模型让它照着回答我心里很笃定 RAG 嘛不就是切块加向量搜索加拼接…- 2
- 0
-
向量数据库选型完全指南:从一次"向量库把服务拖到 OOM"看懂为什么不能随便挑一个
2024 年我给公司一个文档问答系统做向量检索用户问一句话系统从几万篇内部文档里找出最相关的几段喂给大模型生成回答第一版我做得很顺手装了一个能在进程内跑的嵌入式向量库服务启动时把所有文档的 embedding 一次性算好全部 add 进去查询时调一个 search 拿最近邻本地我拿几百篇文档测了测查得又快又准我心里很笃定向量数据库嘛不就是个存向量查最近邻的工具随便挑一个能跑的把向量塞进去就行选哪个…- 0
- 0
-
HNSW 向量索引调优完全指南:从一次"库里明明有那条文档,语义检索却死活召回不到"看懂召回率与延迟权衡
2024 年我给团队的知识库做了一个语义搜索把几百万段文档转成 embedding 向量存进向量数据库用户搜一句话我把这句话也转成向量去库里找最相似的几条返回怎么把它做准做快这件事我压根没多想第一版我做得很顺手向量检索嘛不就是算余弦相似度找最近的几个我把所有文档 embedding 存进去查询时算 query 和每条文档的相似度取 top-k 就完事了本地拿几千条文档一测真不错搜什么都准我心里很笃…- 0
- 0
-
向量检索踩坑完全指南:从一次"换了个 embedding 模型、整个知识库检索全乱套"看懂向量空间不兼容
2023 年我做一个企业知识库问答系统用户问一句系统先把问题转成向量去向量库里检索出几篇最相关的文档再喂给大模型生成回答第一版我选了一个 embedding 模型把几十万篇文档全 embed 进了向量库上线后效果还不错可过了一阵我看到一个评测分数更高的新 embedding 模型就想升级换 embedding 模型这件事我压根没多想我心里很省事地想 embedding 模型不就是个把文字转成向量的…- 0
- 0
-
向量数据库选型完全指南:从一次"RAG 知识库涨到百万向量、检索卡十几秒"看懂向量检索
2023 年我做一个公司内部的知识库问答系统也就是现在很常见的 RAG。思路很直接把公司的文档切成一段段每一段用 embedding 模型转成一个向量用户提问时把问题也转成向量再从所有文档向量里找出最相似的几段塞给大模型当参考。第一版我做得很省事文档向量我全存在一个列表里查询时写个循环把问题向量和每一条文档向量挨个算一遍余弦相似度排序取最高的 5 段。本地一测飞快几百段文档每次查询几毫秒就回来了。…- 2
- 0
-
RAG 检索增强生成完全指南:从一次"问它公司报销流程、它编了一套对不上的流程"看懂 RAG
2024 年我做一个公司内部的知识助手,想让它回答员工的问题:报销流程是什么、某产品的退货政策怎么规定、某份技术规范里关于命名的要求是什么。这些答案全写在公司内部的几百份文档里。第一版我的做法特别直接:接一个大模型把用户问题原样发给它,指望它回答。本地一测问我们公司的报销流程,模型回了一段看起来很合理的流程,我还觉得能用,直到拿去对真实文档发现对不上——我们公司报销不走主管走财务系统直接提单,模型…- 5
- 0
-
RAG 完全指南:从一次"AI 把公司根本没有的制度讲得头头是道"看懂检索增强生成
2024 年我给公司做内部知识助手,让员工用自然语言问规章制度、报销流程,AI 直接给答案。第一版直接把问题发给大模型,Demo 惊艳,推广后反馈变味:它把一个我们公司根本不存在的"弹性工时制度"讲得有条有理,引用早已废止的旧报销流程,年假说法和 HR 手册完全对不上。我以为是模型不够聪明,换更大更贵的模型,照样编。盯着回答我才想明白:模型不是不够聪明,是没有资料——它的知识停…- 0
- 0
-
RAG 实战完全指南:为什么你的检索增强问答总是一本正经胡说八道
2024 年我给公司做内部知识库问答系统,几百份文档散在 Confluence、Git、Word 里新人找资料像大海捞针,我接了个大模型用 RAG——文档切碎存进向量库、提问时先检索相关片段再连同问题发给模型"看着资料回答"。demo 给老板看挺好,上线后投诉不断:问"测试环境数据库密码"它一本正经编了一个、问"报销流程几步"它把三份文档…- 0
- 0
-
RAG 完全指南:给大模型外挂一个企业知识库的正确姿势
2024 年我接了个看似不难的活:做内部知识问答助手,照着公司文档(员工手册、产品文档、制度说明)准确回答员工提问。第一版方案简单粗暴——把所有文档一股脑拼进系统提示词。结果三个问题接踵而至:资料二十多万字远超上下文窗口只能粗暴截断、后半文档彻底丢失;每问一句都为这二十多万字输入付一次钱 token 账单贵得肉疼;最意外的是就算相关段落没被截断模型还会在一大堆文字里迷失看漏它然后开始编。我又试微调…- 2
- 0
-
Embedding 与向量数据库完全指南:语义搜索的工程实现
Embedding 是把"语义"变成"数学"的桥梁,是几乎所有现代 AI 应用的基础设施。问"两段文字相似度"、做"语义搜索"、构建"推荐系统"、实现"RAG"—— 背后都是 Embedding。但这个概念被讲得很玄,什么"向量空间""高维语义&qu…- 0
- 0
向量数据库
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
















