全部标签

Embedding

一次只升级了查询侧 embedding 模型、却忘了重建向量库的 RAG 事故,让检索召回全变成噪声、问答彻底答非所问:一次向量空间不一致的深度复盘

给 RAG 知识库换了个'更好的'embedding 模型,只改了一行查询侧配置就发布,结果问答准确率从 80% 断崖跌到 10% 以下——而且代码一个错都不报。根因是只换了查询侧模型、忘了用新模型重建整个向量库:库里是旧模型的向量、查询是新模型的向量,两个向量空间不可比,相似度沦为噪声,召回近似随机。本文讲透 embedding 向量空间为何必须建库与查询同模型,给出换模型必…
技术教程
- 0
- 0
Mores6月2日
我的 RAG 检索召回的全是风马牛不相及的内容,我反复调相似度阈值都没用,最后发现是建索引和查询用了两个不同的 embedding 模型的深度复盘

我做 RAG:文档切块用 embedding 转向量存库,查询时把问题转向量去检索召回。可一测试就傻眼——问"怎么退款",召回的却是"公司介绍""节假日安排",全是风马牛不相及的内容。我疯狂调相似度阈值、改召回数、查切块、换向量库,毫无改善。最后把两端的 embedding 模型一对比才冷汗直流:建索引用的是模型 A,查询却用成了模型 B…
技术教程
- 0
- 0
Mores6月1日
RAG 答非所问别急着换模型:检索优化避坑复盘

我们花一个多月做了一个基于 RAG 检索增强生成的企业知识库问答机器人,把公司几千篇内部文档喂进去让员工用自然语言提问、由大模型结合文档回答。Demo 阶段效果惊艳,可一上线给全公司用投诉就来了:它答非所问、它在一本正经地胡说、明明文档里写得清清楚楚的东西它却说找不到。我一开始的反应和很多人一样——是不是大模型不够聪明?于是换了更大的模型、反复打磨提示词,可效果只是略有改善,那种驴唇不对马嘴的回答…
技术教程
- 0
- 0
Mores6月1日
RAG 上线即翻车:从 demo 惊艳到胡说八道的检索调优

一个 demo 阶段对答如流、让老板拍板上线的内部文档问答助手,上线第一天就开始满嘴跑火车:问报销流程扯到考勤,还一本正经地援引文档里根本不存在的条款。翻开检索日志才发现,问题压根不在大模型——是系统把一堆不相关的资料喂了进去,逼它瞎编。从这次事故出发,这篇文章把 RAG 检索这条线讲透:切分策略、embedding 选型、rerank 与混合检索、prompt 约束、量化评估到知识库更新。
技术教程
- 7
- 0
Mores5月29日
RAG 实战:知识库问答总在胡编?根因往往不是模型,而是检索

给公司做了个知识库问答,上线第二天投诉就来了:问报销答考勤,问接口超时编出根本不存在的参数名。第一反应是模型太笨,换了个更贵的——几乎没变。直到把喂给模型的检索结果打印出来才醒悟:模型没胡编,它只是忠实地基于一堆错误资料在回答,问题从头到尾不在生成,在检索。这篇从这个答非所问的事故讲起,把朴素 RAG 为什么会废、怎么一步步把召回质量救回来讲透:debug 召回内容、结构化分块加重叠、选对中文 e…
技术教程
- 0
- 0
Mores5月29日
企业知识库 RAG 系统 embedding 模型从 ada-002 升级到 3-large 后召回率从 87% 暴跌到 12% 的 4 天复盘:维度变化 + 阈值硬编码 + 向量库新旧混用三重叠加 + 11 条 RAG 工程纪律

一个用了 18 个月的企业知识库 RAG 系统,运维悄悄把 embedding 从 ada-002 升级到 text-embedding-3-large,线上召回率从 87% 暴跌到 12%,3 小时 1200 工单。4 天复盘找到三重根因:1536到3072 维 Pinecone 客户端静默截断、0.78 相似度阈值对 3-large 过严、向量库未重建新旧混用。修复路径全量重建 + 阈值校准 …
技术教程
- 25
- 0
Mores5月27日
客服RAG系统从demo到生产的6周复盘:召回率38%到89%的真实路径+别再迷信chunksize+被否决的方案比被采纳的更值钱

接手一个 demo 跑通但生产 38% 准确率的 RAG 系统,6 周把 Recall@5 从 51% 顶到 89%、Answer Hit 顶到 81% 的完整路径。Multi-Query 改写贡献最大、Reranker 反直觉地在 Answer Hit 上比 Recall 提升更多、chunk size 实测只是次要变量。否决的方案(BM25 hybrid、HyDE、换大 embedding)和…
技术教程
- 4
- 0
Mores5月26日
RAG 系统检索召回率从 92% 跌到 31% 的 11 天事故复盘:9 个排查弯路 + 三连击根因 + 5 种修法

换 embedding 模型后,RAG 召回率从 92% 跌到 31%,11 天定位出 3 个真凶:不同向量空间不能 union、12 万文档漏向量化、Reranker prefix 中英文失配。本文复盘 9 个排查弯路、5 种修法、监控体系、Hybrid Search、golden set 评估实现,以及 10 条 RAG 工程纪律。
技术教程
- 2
- 0
Mores5月25日
Embedding 模型选型与向量数据库完全指南:从一次"5 万判例 ada-002 + Pinecone 召回 62% 律师骂返回的全不沾边"看懂为什么向量库 + embedding 远远不够

2024 年我们给一家律所做案例检索系统 5 万份判例文书律师输入争议焦点比如租赁合同不可抗力免责系统返回 top10 相似案例第一版我们用 OpenAI ada-002 加 Pinecone 跑通 demo 老板拍板上线但律师用了一周就来骂街了第一种最让我傻眼 ada-002 中文效果差律师搜民法典第 703 条租赁合同定义返回的前 10 个案例里只有 2 个真正相关其他全是装修合同采购合同擦边…
技术教程
- 0
- 0
Mores5月25日
向量数据库选型工程化完全指南:从一次"500 万向量 OOM 服务半夜炸醒运维"看懂为什么 pip install 远远不够

2024 年初我们做一个企业知识库 RAG 应用文档量 50 万 chunk 量 500 万向量维度 1536 OpenAI ada-002 选型时我看了一圈向量数据库 Pinecone 商业版贵 Milvus 太重 Chroma 太轻 Weaviate 看起来不错 Qdrant 性能 benchmark 漂亮我拍板选了 Qdrant 觉得开源高性能社区活跃用了一周本地 demo 检索 50ms …
技术教程
- 6
- 0
Mores5月24日
Embedding 向量检索工程化完全指南:从一次"律师查不到合同关键条款"看懂为什么 embed + cosine 远远不够

2024 年我们公司做一个法律文档智能检索把 10 万份合同案例法规切成 chunk 灌进向量库让律师用自然语言查询原型阶段用 OpenAI 的 text-embedding-3-small 加 Pinecone 一切顺利律师反馈也不错但真正上线半年我们陆续踩了一堆坑第一种最让我傻眼我们一开始切 chunk 用 1000 字符固定长度切结果一份合同的某个关键条款被切成两半检索时永远找不到完整条款律…
技术教程
- 2
- 0
Mores5月24日
RAG 检索增强生成工程化完全指南:从一次"200 万案例库 embedding 升级后检索质量暴跌"看懂为什么 cosine 相似度远远不够

2024 年我们公司接了个项目给一个做内容审核的客户做 RAG 系统把他们 5 年的审核案例库大约 200 万条记录用 OpenAI text-embedding-3-small 做了向量化存到 PostgreSQL pgvector 里给业务侧提供找相似案例的能力我第一版很顺利写了个 embedding pipeline 把所有案例 embedding 一遍建了一个 IVFFlat 索引业务侧调…
技术教程
- 7
- 0
Mores5月24日
Embedding 与向量检索工程化完全指南:从一次"AI 搜索把 Nginx 文档召回成 Apache 配置"看懂为什么纯向量搜索不够

2024 年我接手了一个内部知识库搜索的项目业务诉求很直白把公司过去十年的几万篇技术文档变成 AI 能读懂的样子员工提问时返回最相关的几篇我第一反应是这事不难嘛把每篇文档丢给 embedding 模型生成向量塞进 Pinecone 查询时把问题向量化做近邻搜索就完了原型一周做完跑几个问题效果不错心里很笃定向量检索嘛就是 embedding 加余弦相似度可等真把这套上线一串问题冒了出来第一种最先把我…
技术教程
- 0
- 0
Mores5月24日
LLM 语义缓存完全指南:从一次"缓存命中率几乎为零"看懂为什么不能用字符串匹配

2024 年我给一个 AI 客服系统加缓存这个客服每天要处理上万条用户咨询每一条都调一次大模型账单看着肉疼我想加个缓存吧同样的问题答过一次就把答案存下来下次直接返回不用再调模型第一版我做得很顺手用一个字典把用户的问题字符串当 key 大模型的回答当 value 来一个问题先查字典命中就直接返回没命中才调模型然后把这一对存进去本地我测了测反复问怎么退款第二次开始就秒回了命中率看着很漂亮我心里很笃定缓…
技术教程
- 0
- 0
Mores5月22日
向量检索踩坑完全指南:从一次"换了个 embedding 模型、整个知识库检索全乱套"看懂向量空间不兼容

2023 年我做一个企业知识库问答系统用户问一句系统先把问题转成向量去向量库里检索出几篇最相关的文档再喂给大模型生成回答第一版我选了一个 embedding 模型把几十万篇文档全 embed 进了向量库上线后效果还不错可过了一阵我看到一个评测分数更高的新 embedding 模型就想升级换 embedding 模型这件事我压根没多想我心里很省事地想 embedding 模型不就是个把文字转成向量的…
技术教程
- 0
- 0
Mores5月22日
Embedding 模型选型完全指南:从一次"语义搜索中文搜不准、一换模型检索全乱套"看懂向量召回

2024 年我做一个企业内部文档的语义搜索员工用自然语言提问从几千篇 wiki 和制度文档里找出最相关的几篇。第一版我做得很省事embedding 模型我在网上找了个下载量很高的把每篇文档 encode 成向量存进向量库查询时把问题也 encode 成向量算相似度取 top 5。本地拿几个问题一测效果还行。我心里很踏实embedding 嘛不就是把文本转成向量选个模型调个 API 就完事了。可等它…
技术教程
- 0
- 0
Mores5月21日
RAG 完全指南:从一次"把整个知识库塞进 prompt、模型却答得驴唇不对马嘴"看懂检索增强生成

2024 年我做一个公司内部的知识库问答助手。需求很实在员工问我们的报销流程是什么助手要根据公司那几百篇制度文档给出准确的回答。第一版我做得很直接把所有文档拼成一大段塞进 prompt 后面接上问题一起发给大模型。本地我拿两三篇文档测完美。可一接入真实的那几百篇文档问题就一个接一个砸下来。第一个文档加起来几十万字直接超出模型的 context 上限 API 当场报错。我删掉一批文档勉强不报错了第二…
技术教程
- 2
- 0
Mores5月21日
大模型语义缓存完全指南:从一次"同一个问题换种说法、模型又花钱重答一遍"看懂语义缓存

2024 年我做一个面向用户的智能客服。逻辑很简单:用户问一个问题,后端把问题发给大模型,模型生成答案返回给用户。第一版做得很直接:来一个问题调一次模型。本地测上线初期都挺好,可上线一段时间后两个问题浮上来。一是成本,每次提问都是一次实打实的付费 API 调用,用户量一大账单很吓人;二是延迟,大模型生成完整答案要好几秒,用户每问一句都得干等。我翻后台日志想看是什么问题这么烧钱,结果翻出一个扎眼的事…
技术教程
- 0
- 0
Mores5月21日
RAG 完全指南:从一次"AI 把公司根本没有的制度讲得头头是道"看懂检索增强生成

2024 年我给公司做内部知识助手,让员工用自然语言问规章制度、报销流程,AI 直接给答案。第一版直接把问题发给大模型,Demo 惊艳,推广后反馈变味:它把一个我们公司根本不存在的"弹性工时制度"讲得有条有理,引用早已废止的旧报销流程,年假说法和 HR 手册完全对不上。我以为是模型不够聪明,换更大更贵的模型,照样编。盯着回答我才想明白:模型不是不够聪明,是没有资料——它的知识停…
技术教程
- 0
- 0
Mores5月21日
RAG 完全指南:从一次"AI 答得头头是道却全是错的"看懂检索增强生成

2024 年我做一个公司内部知识库问答 AI,把几百篇文档喂进去。Demo 时答得头头是道,推广后却频繁出问题:答去年的旧标准、把文档里明明有的内容答成"未找到"、把两份产品参数掺一起编出根本不存在的配置。我以为是模型不够强,换强模型问题照旧。盯日志才反应过来:RAG 的回答质量根本不取决于生成那一步模型多强,而取决于检索那一步有没有捞对文档——模型只能基于你塞给它的上下文作答…
技术教程
- 0
- 0
Mores5月21日
RAG 检索增强完全指南:让大模型回答你的私有知识

接了个看起来简单的活:给公司做一个能回答内部资料问题的 AI 助手。第一版方案简单粗暴到自己都觉得聪明:把几百页文档全部拼进 prompt 和问题一起丢给大模型,结果第一次运行就报 context length exceeded 文档太长把上下文窗口撑爆;退而求其次只塞一部分这下不报错但塞进去的恰好是不相干的资料模型答非所问甚至一本正经胡编;每问一次都要把一大坨文档重发一遍 token 烧得飞快账…
技术教程
- 0
- 0
Mores5月21日
RAG 知识库上线后问什么都答非所问:一次 embedding 模型不一致的复盘

一个内部文档 RAG 问答系统测试时问什么答什么,一上线就问什么都答非所问问报销流程答考勤制度,同一套代码同一批文档同一个大模型本地好端端线上成胡言乱语。排查梳理:先写脚本只跑检索把召回的原始 chunk 打出来看发现召回的全是不相关内容而且相似度分数全挤在 0.7 上下挤成一团这本身就是危险信号,grep 查建索引链路的 embedding 配置是 bge-large-zh,再 grep 查在线…
技术教程
- 0
- 0
Mores5月21日
Embedding 与向量数据库完全指南:语义搜索的工程实现

Embedding 是把"语义"变成"数学"的桥梁,是几乎所有现代 AI 应用的基础设施。问"两段文字相似度"、做"语义搜索"、构建"推荐系统"、实现"RAG"—— 背后都是 Embedding。但这个概念被讲得很玄,什么"向量空间""高维语义&qu…
技术教程
- 0
- 0
Mores5月15日