-
我的 RAG 系统用纯向量语义检索、平时答得挺好,可用户一搜精确的产品型号、错误码、或某个生僻专有名词,就死活召不回对应的那篇文档,明明库里就躺着,排查很久才明白向量检索天生就不擅长这种字面精确匹配我得给它配一个关键词检索来互补的深度复盘
我的 RAG 系统流程很标准:文档切块、用 embedding 转成向量存进向量库,用户提问时把问题也转成向量去库里找语义最相近的几个块喂给大模型。对问意思的问题(怎么退货、这个功能怎么用)表现很好,因为语义检索擅长找意思相近的内容。可用户一搜精确的东西就抓瞎:搜产品型号 X-2000Pro、错误码 ERR_5021、生僻专有名词或人名,经常召不回那篇原文里就有这个词的文档,要么返回一堆语义沾边实…- 0
- 0
-
RAG 混合检索完全指南:从一次"搜精确型号死活搜不到,纯向量检索却自以为很先进"看懂 BM25 与 RRF 融合
2024 年我给一个产品文档站做了个智能问答检索用户输入一句话我去几万篇文档里找最相关的几篇喂给大模型生成回答怎么把这个找做准这件事我压根没多想第一版我做得很顺手这都什么年代了还用关键词搜索我把所有文档转成 embedding 向量存进向量库用户的问题也转成向量去库里找语义最接近的几篇就完事了本地拿一批问题一测真不错问怎么让网站变快它能召回标题叫性能优化指南的文档一个字都不重合也照样命中我心里很笃…- 0
- 0
BM25
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


