全部标签

提示工程

我的 RAG 问答系统明明把含有答案的文档块召回来了相关度也不低就老老实实塞进了给大模型的上下文里,可模型偏偏视而不见答不出来,而我把同一个块挪到 prompt 的开头或结尾它立马就答对了,排查很久才搞懂大模型对长上下文里不同位置的信息利用率根本不一样夹在中间的内容最容易被它忽略掉的深度复盘

我做了个基于 RAG 的文档问答:用户提问先从向量库召回若干相关块、拼成上下文塞进 prompt 让大模型基于这些内容回答,整体不错但有一类问题百思不得其解:对某些提问模型回答根据提供的资料无法找到相关信息,可我把召回的块逐个翻出来一看答案明明白白就在其中某一块里、而且那块检索相似度还不低排在召回中游;我确认那个含答案的块确确实实被拼进上下文发给了模型不存在被截断丢掉,模型是拿到了却没看见;我做对…
技术教程
- 0
- 0
Mores6月3日
我给大模型加了几个示例教它怎么抽取信息,本想让它更准,结果它从我那几个雷同的示例里学歪了规律、遇到没覆盖的情况就生搬硬套、甚至把示例里的具体值照抄了出来的深度复盘

我做了个用 LLM 从文本抽取信息的功能,为了更准、格式更规范,加了几个 few-shot 示例。加了示例后格式确实更规整了,可准确率出怪事:遇到和示例类似的输入答得好,遇到示例没覆盖的情况不仅答错还错得很一致——生搬硬套示例的模式;更离谱的是有几次直接把示例里的具体值照抄了出来(示例里某字段填的是张三,它对一个完全不同的输入也输出张三)。复盘才想明白:few-shot 的本质是用例子教模型,模型…
技术教程
- 0
- 0
Mores6月3日
我让大模型帮我写调用某个库的代码,它信誓旦旦地用了一个看起来特别合理的函数,我没多想直接上线,结果报错说这个函数根本不存在:一次轻信 LLM 幻觉、把流畅自信当成内容正确的深度复盘

我要写一段调用第三方库的代码,懒得翻文档,就让大模型帮我写。它给的代码结构清晰、注释完整、命名规范,里面调用了 client.batch_upsert(records)——名字、参数都太符合直觉了。我几乎没看就用了、跑通简单测试(其实没覆盖到那行)就上线,结果线上报 AttributeError:这个函数根本不存在!那个库压根没有 batch_upsert,大模型是凭空编造了一个看起来该有却不存在…
技术教程
- 0
- 0
Mores6月3日
一个工具描述写得含含糊糊的 AI Agent,在该查订单时却去退了款、参数还填错,把工具用得乱七八糟:一次工具定义不清的深度复盘

给客服 Agent 配了一堆工具,它表现却飘忽不定:问订单到哪了,有时查物流有时查订单、偶尔还调了退款,参数还把订单号填进用户 ID 的位置。换更强的模型也没根治。根因是工具描述写得含糊雷同(refund 只写'订单处理')、参数只写 id: string 没说是订单号还是用户 ID——而大模型完全依据工具的描述和参数 schema(看不到实现)来选工具、填参数,说明书烂它只能…
技术教程
- 0
- 0
Mores6月2日
一个直接把大模型返回当 JSON 来解析的接口,在线上偶发地解析崩溃——因为模型有时会贴心地多说几句话:一次 LLM 结构化输出的深度复盘

让大模型把文本抽取成 JSON,后端拿到回复直接 json.loads 入库,测试几十条都好好的,一上线就偶发 JSONDecodeError。打出原始返回一看:模型有时裹一层 markdown 代码围栏、有时前面加一句'好的这是结果'、有时多个尾逗号或写成中文引号。根因是 LLM 本质是概率性生成文本、不保证返回严格合法 JSON,却被当成确定可靠的接口直接解析。本文讲透 L…
技术教程
- 2
- 0
Mores6月2日
我的 Agent 总是调错工具,我一直骂模型笨,直到我把自己写的那几行工具描述认真读了一遍,才发现它模糊得连我自己都分不清谁是谁的深度复盘

我做了一个有好几个工具的 AI Agent——查订单、查物流、查退款政策、发起退款。可它总选错工具:问"订单到哪了"它去查了订单状态,想退款它却去查了退款政策。我一口咬定是"模型笨",甚至想换个更强的。换之前,我把自己给工具写的描述一条条读了一遍——羞愧得脸红:"获取订单信息"和"获取订单的物流信息"像得连我都分不清,…
技术教程
- 0
- 0
Mores6月1日
Agent 总用错工具:工具描述就是提示词避坑复盘

我们做了一个能调用几十个内部工具的 AI 客服 Agent,查订单查物流查商品改地址申请退款,几乎把后台能力都包装成工具挂上去,满心期待它像个全能客服自动调对应工具去办事。可上线一测问题百出:用户问我的订单到哪了它却去调了搜索商品的工具,用户想退款它调了查询物流,有时明明有专门工具能干这事它偏不用反而自己瞎编参数去调不相干的工具。它不是不工作,而是频繁地自信地用错工具。我一开始以为是大模型太笨,又…
技术教程
- 0
- 0
Mores6月1日
AI Agent 失控实录:一个停不下来的工具循环如何烧光预算

那天早上我被一条账单告警短信叫醒:一个跑在生产的 AI Agent 一夜之间烧掉了平时一个月的 API 费用。几十个对话却产生了四千多次大模型调用,日志里同一个工具被反复调了几百次、次次失败却从不放弃。根因简单得哭笑不得:query_order 工具因下游抖动返回一句没头没脑的 internal error,模型分不清该重试还是放弃,而循环既没步数上限也没成本预算。这篇就从这个停不下来的 Agen…
技术教程
- 14
- 0
Mores5月29日
Few-shot 提示工程完全指南:从一次"加了几个例子分类反而更偏了"看懂示例为什么是双刃剑

2024 年我做一个用户反馈分类功能用户提交的每一条反馈自动归到 Bug 报告功能建议使用咨询情绪吐槽四类里的一类方便团队分流处理第一版我做得很顺手写一段任务说明发给模型本地测了几条有的对有的错效果飘忽我想起 few-shot 这个技巧给模型几个例子让它照着做于是我在提示词里塞了几个反馈加它属于哪类的示例一加上准确率肉眼可见地涨了我心里很笃定 few-shot 嘛就是多给几个例子例子越多模型学得越…
技术教程
- 0
- 0
Mores5月22日
LLM 应用评估完全指南:从一次"改了提示词修好一个 case 结果碰坏一片"看懂为什么肉眼看例子不算测试

2024 年我做一个 AI 功能用户输入一段商品描述让大模型帮忙提炼出标题卖点和适用人群这件事我没多想就有了方案写一个提示词把用户的描述塞进去调模型把结果返回第一版我做得很顺手提示词写好本地拿三五个商品描述一试模型提炼得有模有样我心里很笃定提示词调到自己看着顺眼就算做好了可等它真正开始迭代一串问题冒了出来第一种最先把我打懵有用户反馈某类商品的提炼很差我改了改提示词把那个 case 修好了结果第二天…
技术教程
- 0
- 0
Mores5月22日
LLM 幻觉缓解完全指南:从一次"模型一本正经编了个不存在的制度条款"看懂喂资料为什么挡不住瞎编

2024 年我做一个企业内部的知识库问答助手员工用自然语言问公司的制度产品流程助手调用大模型把答案讲出来这件事我没多想就有了方案把员工的问题直接发给大模型让它回答第一版我做得很顺手一个接口收到问题拼一个提示词发给模型把模型的回答返回本地拿几个常见问题一测模型答得有模有样我心里很笃定大模型这么聪明问它公司的事它答得头头是道可等真正交给员工用一串问题冒了出来第一种最先把我打懵有人问一个具体的制度条款模…
技术教程
- 2
- 0
Mores5月22日
LLM 思维链完全指南:从一次"让模型直接报答案它算错了多步应用题"看懂 Chain of Thought 为什么有效

2024 年我做一个需要模型做推理的功能让大模型解应用题根据一组规则算出结果做多步的逻辑判断我想要的很明确用户问一个问题模型干净利落地给出答案怎么让模型答得准这件事我没多想就有了方案把问题问清楚然后让它直接给答案别废话第一版我做得很顺手我在 prompt 里把题目写明白末尾加一句只输出最终答案不要任何解释本地拿几道简单题一测答得又快又准我心里很笃定让模型答题嘛问题问清楚让它直接给结果这套推理稳了可…
技术教程
- 4
- 0
Mores5月22日
RAG、微调还是提示工程?大模型落地选型完全指南

2024 年我带团队做企业客服 AI,老板一句"让 AI 学会我们公司的产品知识",我几乎没想就选了微调:把几千条历史对话整理成训练数据去训模型。三周后上线,一周内就撞上两个绕不开的问题——产品文档一更新,微调出来的模型还在用旧价格;语气是像客服了,可一问到具体退款政策、价格数字它照样自信地答错。又咬牙微调两轮才回过神:我们从一开始就走错了路。要解决的根本不是"模型不…
技术教程
- 0
- 0
Mores5月21日