-
Embedding 向量检索工程化完全指南:从一次"律师查不到合同关键条款"看懂为什么 embed + cosine 远远不够
2024 年我们公司做一个法律文档智能检索把 10 万份合同案例法规切成 chunk 灌进向量库让律师用自然语言查询原型阶段用 OpenAI 的 text-embedding-3-small 加 Pinecone 一切顺利律师反馈也不错但真正上线半年我们陆续踩了一堆坑第一种最让我傻眼我们一开始切 chunk 用 1000 字符固定长度切结果一份合同的某个关键条款被切成两半检索时永远找不到完整条款律…- 2
- 0
-
Embedding 模型选型完全指南:从一次"语义搜索中文搜不准、一换模型检索全乱套"看懂向量召回
2024 年我做一个企业内部文档的语义搜索员工用自然语言提问从几千篇 wiki 和制度文档里找出最相关的几篇。第一版我做得很省事embedding 模型我在网上找了个下载量很高的把每篇文档 encode 成向量存进向量库查询时把问题也 encode 成向量算相似度取 top 5。本地拿几个问题一测效果还行。我心里很踏实embedding 嘛不就是把文本转成向量选个模型调个 API 就完事了。可等它…- 0
- 0
-
Embedding 与向量数据库完全指南:语义搜索的工程实现
Embedding 是把"语义"变成"数学"的桥梁,是几乎所有现代 AI 应用的基础设施。问"两段文字相似度"、做"语义搜索"、构建"推荐系统"、实现"RAG"—— 背后都是 Embedding。但这个概念被讲得很玄,什么"向量空间""高维语义&qu…- 0
- 0
语义搜索
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



