全部标签

幻觉

我让大模型帮我写调用某个库的代码,它信誓旦旦地用了一个看起来特别合理的函数,我没多想直接上线,结果报错说这个函数根本不存在:一次轻信 LLM 幻觉、把流畅自信当成内容正确的深度复盘

我要写一段调用第三方库的代码,懒得翻文档,就让大模型帮我写。它给的代码结构清晰、注释完整、命名规范,里面调用了 client.batch_upsert(records)——名字、参数都太符合直觉了。我几乎没看就用了、跑通简单测试(其实没覆盖到那行)就上线,结果线上报 AttributeError:这个函数根本不存在!那个库压根没有 batch_upsert,大模型是凭空编造了一个看起来该有却不存在…
技术教程
- 0
- 0
Mores6月3日
一个直接把大模型回答当权威答案展示给用户的功能,因为模型一本正经地编造了一个不存在的政策条款,把用户彻底带偏:一次 LLM 幻觉的深度复盘

做了个智能客服直接让大模型回答政策问题,用户投诉:客服言之凿凿说支持 30 天无理由全额退款且运费我方承担,真去退却被告知根本没这政策。根因是知识库里压根没这条、模型凭空编造了它——这就是 LLM 幻觉:它本质是预测下一个词的生成模型、目标是流畅而非真实,不知道时不会说不知道而是自信地编一个,且编得笃定专业可信(自信≠正确),而我们直接把它的话当权威展示、没让它基于真实知识库、没做任何校验。本文讲…
技术教程
- 0
- 0
Mores6月2日
我的 AI Agent 直接拿大模型生成的参数去调用工具执行,结果模型一"幻觉"出个不存在的参数,工具就报错把整个任务带崩了,我对着把模型输出当可信数据直接执行这个坑排查大半天的复盘

做能调用工具的 AI Agent 时栽的一个关于信任边界的大跟头,它让我明白大模型生成的东西无论看起来多言之凿凿都只是建议/猜测,绝不能当可信事实直接执行。需求是做一个用自然语言操作系统的 Agent:用户说需求,模型决定调哪个工具、生成参数,然后执行。我的实现很直接——把模型吐出的工具名和参数解析出来原样拿去 tool_func(**args) 执行。模型表现正常时跑得好好的,但大模型不是永远正…
技术教程
- 4
- 0
Mores6月2日
我让大模型帮我答用户的专业问题,它一本正经地编了个根本不存在的政策条款,还说得有理有据,我对着大模型的幻觉排查了大半天的复盘

做了个用大模型回答用户产品政策问题的智能客服,测试时对答如流、专业又自信就上线了。没几天客诉来了:有用户拿着机器人给的"退款政策第7条"来理论,可我们政策里压根没有第7条,那段话连条款号带数字都是机器人凭空编的,还编得有模有样、语气笃定,用户全信了。排查大半天才理解大模型绕不开的本质问题——幻觉:它本质是个"按概率预测下一个词"的文本生成器,目标是生成流畅合…
技术教程
- 3
- 0
Mores6月2日
我让大模型帮我查一个库的 API,它信誓旦旦地给了我一个方法名、连参数都写得有模有样,结果那个方法根本不存在,我对着这场一本正经的胡编排查了大半天的复盘

我问大模型一个不熟的库怎么用,它对答如流给了我 client.batchUpsert(items, options),参数返回值示例代码一应俱全、语气笃定,我直接抄进代码——结果 TypeError: batchUpsert is not a function,翻遍官方文档根本没这方法,是大模型凭空编的。它怎么能如此自信地告诉我一个不存在的东西?深挖才懂这是"幻觉",根源是我把…
技术教程
- 0
- 0
Mores6月2日
LangChain + Qdrant + GPT-4o 知识库助手幻觉率从 11.2% 压到 0.3% 的 6 周治理复盘:Prompt + Citation Verifier + Sufficiency Check + Self-Consistency 四层防御 + 12 条治理纪律

审计抽检发现 3 个月内 LLM 凭空编造 23 次内部 SOP 步骤,30 天整改令下,我们用 4 层防御把幻觉率从 11.2% 压到 0.3%,全是工程层面的约束与兜底组合,没有用模型微调,可量化、可监控、可持续。
技术教程
- 0
- 0
Mores5月26日
大模型幻觉完全指南:为什么 AI 会一本正经地胡说八道,以及怎么治

2024 年我做一个内部知识库问答 AI,把 HR、行政、财务的制度文档喂进去让员工直接问。上线那天法务同事发来截图:她问"出差超过 7 天的住宿费报销标准",AI 回答得条理清晰、语气笃定,还引用了一个文号"HR-2022-038 第 4 条"——可这个文号根本不存在,数字也是编的。最让我后背发凉的不是它答错,而是它答错的姿态:没有任何犹豫,用和回答正确问…
技术教程
- 0
- 0
Mores5月21日