全部标签

检索增强

我的 RAG 系统用纯向量语义检索、平时答得挺好,可用户一搜精确的产品型号、错误码、或某个生僻专有名词,就死活召不回对应的那篇文档,明明库里就躺着,排查很久才明白向量检索天生就不擅长这种字面精确匹配我得给它配一个关键词检索来互补的深度复盘

我的 RAG 系统流程很标准:文档切块、用 embedding 转成向量存进向量库,用户提问时把问题也转成向量去库里找语义最相近的几个块喂给大模型。对问意思的问题(怎么退货、这个功能怎么用)表现很好,因为语义检索擅长找意思相近的内容。可用户一搜精确的东西就抓瞎:搜产品型号 X-2000Pro、错误码 ERR_5021、生僻专有名词或人名,经常召不回那篇原文里就有这个词的文档,要么返回一堆语义沾边实…
技术教程
- 0
- 0
Mores6月3日
我的 RAG 问答系统总在一些问题上答非所问,明明知识库里就有正确答案,它却引用了一堆看着相关、其实跑题的片段编出似是而非的答案,查了半天发现我只用向量相似度取了 top-k 就直接喂给大模型、压根没做重排序的深度复盘

我做了个 RAG 问答系统:把文档切片转向量存进向量库,提问时把问题也转向量,检索最相似的若干片段连同问题喂给大模型作答,demo 效果不错就上线了。可上线后系统总在某些问题上答非所问,明明知识库里就有标准答案,它却引用一堆看着沾边、实则跑题的片段编出似是而非的答案;我把正确答案文档翻出来核对,它确实在库里且高度相关,换更强的大模型也没用。折腾很久才把矛头指向我以为最不会出错的检索:打印实际召回的…
技术教程
- 0
- 0
Mores6月3日
我以为给大模型喂的资料越多回答越准,就把检索到的几十篇文档全塞进了 prompt,结果它要么报超长、要么在海量内容里抓错了重点:一次 RAG 上下文塞太多的深度复盘

我做了个基于检索增强(RAG)的问答,朴素地觉得喂的资料越多越全模型回答越准,就把检索到的几十篇文档(top-50)全塞进了 prompt。结果出了两类问题:有时直接报超长或被默默截断、把后面的用户问题和指令都截掉了,答非所问;即使没超限,模型也在那么一大堆文档里迷失、抓错重点、被无关内容干扰。查清才明白资料越多越好的直觉是错的:模型上下文窗口有限超了就截断,且上下文多不等于好——大量无关内容会稀…
技术教程
- 4
- 0
Mores6月2日
RAG 答非所问别急着换模型:检索优化避坑复盘

我们花一个多月做了一个基于 RAG 检索增强生成的企业知识库问答机器人,把公司几千篇内部文档喂进去让员工用自然语言提问、由大模型结合文档回答。Demo 阶段效果惊艳,可一上线给全公司用投诉就来了:它答非所问、它在一本正经地胡说、明明文档里写得清清楚楚的东西它却说找不到。我一开始的反应和很多人一样——是不是大模型不够聪明?于是换了更大的模型、反复打磨提示词,可效果只是略有改善,那种驴唇不对马嘴的回答…
技术教程
- 3
- 0
Mores6月1日
不是模型幻觉:RAG 知识库问答自信胡说的排查

我们做了个挺受欢迎的内部知识库问答机器人,把几千篇文档灌进向量库,用户大白话提问,它检索片段连同问题喂给大模型生成回答,上线口碑很好。直到某天客服截图来问:它说退款政策是 30 天无理由,可我们明明写的是 7 天。机器人不光答错,还答得无比笃定,连"根据公司政策"都加上了——这种一本正经的胡说,语气和正确答案时一模一样,用户根本分辨不出。我第一反应是模型幻觉、想换个更强的模型,…
技术教程
- 0
- 0
Mores5月30日
Embedding 模型选型与向量数据库完全指南:从一次"5 万判例 ada-002 + Pinecone 召回 62% 律师骂返回的全不沾边"看懂为什么向量库 + embedding 远远不够

2024 年我们给一家律所做案例检索系统 5 万份判例文书律师输入争议焦点比如租赁合同不可抗力免责系统返回 top10 相似案例第一版我们用 OpenAI ada-002 加 Pinecone 跑通 demo 老板拍板上线但律师用了一周就来骂街了第一种最让我傻眼 ada-002 中文效果差律师搜民法典第 703 条租赁合同定义返回的前 10 个案例里只有 2 个真正相关其他全是装修合同采购合同擦边…
技术教程
- 0
- 0
Mores5月25日