-
RAG 知识库质量完全指南:从一次"知识库越塞越多回答反而越差"看懂为什么文档质量决定一切
2024 年我给公司搭一个 RAG 知识库问答系统把公司内部的各种文档产品手册技术规范培训材料会议纪要灌进一个向量库用户问一个问题系统检索出最相关的几段喂给大模型生成回答第一版我做得很顺手写了个脚本把存放公司文档的那个共享目录整个遍历一遍所有文件 Word PDF Markdown 还有一堆 txt 统统读出来原样切成固定长度的块算 embedding 全塞进向量库本地我拿几个问题测了测答得有模有…- 4
- 0
-
RAG 文档切分完全指南:从一次"答不上手册里明明写着的答案"看懂 Chunking 为什么决定检索质量上限
2024 年我做一个文档问答系统用户上传一份产品手册然后能用自然语言向它提问系统去手册里找答案也就是现在常说的 RAG 它的核心套路我很清楚把文档切成一块一块每块算一个向量存进向量库用户提问时把问题也算成向量检索出最相似的几块连同问题一起喂给大模型作答这一整条链路里有一步叫把文档切成块怎么切这件事我没多想就有了方案按字数切第一版我做得很顺手我写了个函数把文档每五百个字切成一块一块接一块整整齐齐本地…- 0
- 0
文档切分
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


