-
我的 RAG 检索效果一直很差、召回的总是些半截残缺答非所问的片段,我换了更强的向量模型、调高了召回数量都没用,折腾半天才发现根因是我把文档按每 500 字机械地切块、一刀刀全切在了段落问答和表格的正中间的深度复盘
我做了套 RAG 系统,把一批文档切块、灌进向量库,让大模型据检索到的块来回答。可检索效果一直很差:召回的片段总是半截残缺、答非所问,明明库里有答案,捞上来的却是从中间断开的零碎句子,模型拿着这些碎片自然答不好。我以为是向量模型不够强,换了更强的 embedding;以为是召回太少,把 topK 调大;都没用。直到我把存进库的块一条条打印出来看,才倒吸凉气:每个块都被切得乱七八糟——一段话从中间断…- 0
- 0
分块
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

