我问大模型一个不熟的库怎么用,它对答如流给了我 client.batchUpsert(items, options),参数返回值示例代码一应俱全、语气笃定,我直接抄进代码——结果 TypeError: batchUpsert is not a function,翻遍官方文档根本没这方法,是大模型凭空编的。它怎么能如此自信地告诉我一个不存在的东西?深挖才懂这是"幻觉",根源是我把它当成了无所不知的知识库,而大模型本质是"语言模型"——它擅长生成"统计上最合理、最连贯的文本",追求语言合理性而非事实真实性;不确切知道时,它会基于海量代码模式生成一个"最像该库会有的方法",命名规范参数合理却纯属虚构。关键是:语气的自信≠内容的真实,它编假的和说真的一样理直气壮。这篇从 LLM 为什么会幻觉讲起,到 RAG 给真实依据/调工具/要出处/程序化核实的正解、不轻信必验证的使用纪律、对抗幻觉手段对比、给 LLM 代码加幻觉自动核验,以及那句最戳心的——AI 时代提问变容易但判断答案是否可信变重要,放手用 AI 的能力但永远握紧判断真伪的最终责任。

我让大模型帮我查一个库的 API,它信誓旦旦地给了我一个方法名、连参数都写得有模有样,结果那个方法根本不存在,我对着这场一本正经的胡编排查了大半天的复盘

这是一个让我对大模型"幻觉"彻底警醒的故事。我在用一个不太熟的库,想知道它有没有某个功能,就直接问了大模型。它对答如流:不仅给了我一个看起来非常专业的方法名(比如 client.batchUpsert(items, options)),还详细地写出了参数、返回值、甚至贴心地给了示例代码,语气笃定、有理有据。我心想这下省事了,直接抄进了代码。结果一运行,当头一棒:TypeError: client.batchUpsert is not a function——这个方法,在那个库里根本不存在!我翻遍官方文档,压根没有 batchUpsert 这个东西,它是大模型凭空"编"出来的。

我当时又气又惑:它怎么能如此自信地,告诉我一个根本不存在的东西?它要是不知道,说一句"不知道"不行吗,为什么要编?我顺着这个现象,去深入理解大模型的工作原理,才终于揭开真相,补上了我对 AI 一个最根本的认知漏洞:问题的核心,是大模型的"幻觉(hallucination)",而它的根源,在于我从一开始就用错了大模型的定位。我一直想当然地把它当成一个"无所不知的知识库 / 搜索引擎",以为问它什么,它都会给我"真实、准确的事实";可真相是:大模型,本质上是一个"语言模型",它真正擅长、也唯一在做的事,是"根据前文,生成统计上最像、最连贯、最合理的下一段文字";它追求的是"语言上的合理性",而不是"事实上的真实性"。所以,当我问它一个它"不确切知道"的 API 时,它不会(也不"知道"该)说"我不知道";相反,它会基于它学过的、海量的代码模式,生成一个"看起来最像那个库会有的方法"——一个命名规范、参数合理、用法地道的方法;这个方法,在"语言/模式"层面,无懈可击、以假乱真,但在"事实"层面,纯属虚构。这,就是"幻觉":它不是在"撒谎"(撒谎要先知道真相),而是在"一本正经地、自信地,编造它认为最合理的内容"。我这才痛彻地明白:"大模型说的话,默认就是真实可信的"是一个极其危险的幻觉;它生成的内容,"语气的自信程度",和"内容的真实程度",毫无关系——它编造假事实时,可以和陈述真事实时,一样地理直气壮。用好大模型的前提,是清醒地认识到它"会幻觉"这个本质局限,并建立起一套"不轻信、必验证"的使用纪律,尤其是对它给出的"具体事实"(API、数据、引用、人名、日期),绝不能不加核实地直接采信。

故障现场:把 LLM 当知识库,直接采信它编的 API

我把这个"幻觉"的现场,摊开给你看:

# ✗ 灾难: 把 LLM 当知识库, 直接采信它给的"事实"(API)
# 我问 LLM: "xxx 库怎么批量更新插入?"
# LLM 自信地答:
#   "用 client.batchUpsert(items, options) 即可, 示例:"
client.batchUpsert(                # ✗ 直接抄进代码
    items=[...],
    options={"onConflict": "update"}
)
# 运行 → TypeError: client.batchUpsert is not a function
# 翻文档 → 根本没有 batchUpsert 这个方法! LLM 编的!

# 为什么 LLM 会"编"出一个不存在的 API?
#   - LLM 是"语言模型": 它生成"统计上最合理、最连贯的文本"。
#   - 它追求"语言合理性", 不追求"事实真实性"。
#   - 它见过海量类似库的 batchXxx/upsert 命名模式:
#     → 当不确切知道时, 它"生成一个最像该库会有的方法名"。
#   - 结果: 命名规范、参数合理、用法地道 —— 但纯属虚构。

# 幻觉的本质:
#   - 不是"撒谎"(撒谎要先知道真相再故意说假)。
#   - 是"自信地编造它认为最合理的内容"。
#   - 关键: 语气的自信 ≠ 内容的真实! 编假的和说真的一样理直气壮。

# 哪些场景 LLM 最容易幻觉?
#   - 具体 API/函数/参数名(尤其小众库/新版本)。
#   - 精确数据/统计数字/日期/价格。
#   - 文献引用/论文标题/作者/链接(常编造不存在的)。
#   - 它训练数据截止后发生的事(它不知道, 但会硬答)。
#   - 法律条款/医疗建议等需要精确事实的领域。

# 根因: 把 LLM 当"事实知识库", 直接采信它生成的具体事实(API);
#   而 LLM 是语言模型, 不确定时会自信地编造"最合理"的内容。

看着那个根本不存在的 batchUpsert,我才算彻底想明白了这场"幻觉"的根源。问题的核心,是我把 LLM 当成了"事实知识库",直接采信了它生成的具体事实(API)。为什么它会"编"出一个不存在的 API?因为 LLM 是"语言模型":它生成的是"统计上最合理、最连贯的文本",追求"语言合理性",不追求"事实真实性";它见过海量类似库的 batchXxx/upsert 命名模式,所以当它不确切知道时,就"生成一个最像该库会有的方法名"——命名规范、参数合理、用法地道,但纯属虚构。幻觉的本质是:它不是"撒谎"(撒谎要先知道真相再故意说假),而是"自信地编造它认为最合理的内容";关键在于——语气的自信 ≠ 内容的真实,它编假的和说真的一样理直气壮。而 LLM 最容易幻觉的场景:具体 API/参数名(尤其小众库/新版本)、精确数据/数字/日期、文献引用/论文/链接(常编不存在的)、训练数据截止后的事、法律/医疗等需精确事实的领域。归根结底:把 LLM 当"事实知识库"、直接采信它生成的具体事实;而 LLM 是语言模型,不确定时会自信地编造"最合理"的内容——这,就是根源。

第一件事:搞懂 LLM 为什么会"幻觉"

定位到根源,我必须把"LLM 为什么会幻觉、它到底是什么"从根上彻底搞清楚:

LLM 是"语言模型", 不是"知识库"; 它追求合理, 不保证真实

# LLM 的本质:
#   - 它学的是"语言的规律": 给定前文, 预测最可能的下一个词。
#   - 它把海量知识"压缩"进了参数, 但这是"模糊的、有损的"记忆,
#     不是一个能精确查询的数据库。
#   - 所以它"记得大概", 但"细节(确切的名字/数字)容易记错或补全错"。

# 为什么会幻觉(自信地编)?
#   - 它被训练成"总是给出流畅、有帮助的回答"。
#   - 它没有"我不知道"的强信号 —— 不确定时, 倾向于"生成最合理的猜测"。
#   - 它分不清"我真记得"和"我根据模式补全的" —— 两者它都"很自信"。

# 关键: 自信度 ≠ 准确度!
#   - LLM 的语气, 不反映它对内容真实性的把握。
#   - 它可以用一模一样的笃定语气, 说真话和编假话。

# LLM 适合 vs 不适合(按"是否需要精确事实"分):
#   ✓ 适合: 创作、改写、总结、翻译、头脑风暴、解释概念、写代码框架。
#     —— 这些"重语言能力、对个别事实错误容忍度高"。
#   ✗ 不适合裸用: 查精确 API/数据/引用、需要权威准确的事实问答。
#     —— 这些"错一个字就出大问题", 必须给它依据或事后核实。

# 怎么对抗幻觉(核心思路)?
#   - 给它"事实依据"(RAG): 把真实文档喂给它, 让它"基于给定材料回答"。
#   - 让它"给出处": 要求引用来源, 便于你核实(也减少瞎编)。
#   - 关键事实"必核实": API 查文档、数据查数据库、引用查原文。

# 关键认知: 把 LLM 当"会说话的聪明助手", 不是"绝对正确的真理机器"。

# 核心: LLM 是语言模型(求合理非求真), 不确定时自信编造=幻觉, 自信≠准确;
#   精确事实必须给依据(RAG)、要出处、并事后核实, 别裸信。

原理终于清晰了。LLM 的本质,是"语言模型":它学的是"语言的规律"(预测下一个词);它把海量知识"压缩"进了参数,但这是"模糊的、有损的"记忆,不是一个能精确查询的数据库——所以它"记得大概,但细节(确切的名字/数字)容易记错或补全错"。为什么会自信地编?因为它被训练成"总是给出流畅、有帮助的回答",没有"我不知道"的强信号,不确定时倾向于生成最合理的猜测;而且它分不清"我真记得"和"我根据模式补全的",两者它都很自信。所以,关键铁律是:自信度 ≠ 准确度——LLM 的语气不反映它对真实性的把握,它能用一模一样的笃定语气,说真话和编假话。由此可分清它适合与不适合的场景:✓ 适合:创作、改写、总结、翻译、解释概念、写代码框架(重语言能力、对个别事实错误容忍度高);✗ 不适合裸用:查精确 API/数据/引用、需权威准确的事实问答(错一个字就出大问题,必须给依据或事后核实)。怎么对抗幻觉?给它"事实依据"(RAG,基于给定材料回答)、让它"给出处"(便于核实、也减少瞎编)、关键事实"必核实"(API 查文档、数据查库、引用查原文)。由此,我刻下一个关键认知:把 LLM 当"会说话的聪明助手",不是"绝对正确的真理机器"。归根结底:LLM 是语言模型(求合理非求真),不确定时自信编造就是幻觉,自信≠准确;精确事实必须给依据(RAG)、要出处、并事后核实,别裸信。

第二件事:正解——给依据(RAG)、要出处、必核实

搞懂了原理,正解就清晰了:别让它"凭记忆裸答",而要给它真实依据(RAG)、要求它给出处、并对关键事实做核实。

# ✓ 正解一: RAG —— 把真实文档喂给它, 让它"基于给定材料"回答
def ask_with_context(question, library):
    # 1. 先从"可信来源"检索真实资料(官方文档/代码库)
    docs = search_official_docs(library, question)   # 真实的、确切的资料
    # 2. 把资料放进 prompt, 明确要求"只基于材料回答, 材料没有就说不知道"
    prompt = f"""仅根据以下官方文档回答, 不要编造。
若文档中没有相关信息, 请直接回答"文档中未找到"。

文档:
{docs}

问题: {question}
"""
    return llm.chat(prompt)
# → 让它"开卷考试", 答案有据可依, 大幅减少幻觉。

# ✓ 正解二: 要求给出处/引用, 便于核实(也抑制瞎编)
prompt = "回答时, 请为每个关键结论标注它来自文档的哪一段/哪一行。"
# → 它要"指出处"时, 会更克制, 不敢乱编(编了你一查就露馅)。

# ✓ 正解三: 关键事实"程序化核实"(别用眼睛信, 用代码验)
answer = llm.suggest_api()           # LLM 建议的 API
# ✓ 用反射/文档/实际调用去验证它是否真存在:
if not hasattr(client, answer.method_name):
    answer = fallback_or_retry()     # 不存在 → 别用, 走兜底
# 代码: 编译/类型检查/跑测试; 数据: 查库核对; 引用: 点开链接验真伪。

# ✓ 正解四: 用对工具 —— 让它"调真实工具"而不是"凭记忆答"
#   - 查 API → 接文档检索工具 / 让它生成代码再实际运行验证。
#   - 查实时/精确数据 → 接搜索、数据库、计算器工具(function calling)。
#   - 别让它"心算/凭记忆", 让它"动手查/动手算"。

# 核心: 用 RAG 给真实依据让它开卷答 + 要求标注出处便于核实 +
#   关键事实用代码/工具程序化验证, 把"凭记忆裸答"换成"有据可查"。

修复的方向,是把"凭记忆裸答"换成"有据可查"。正解一,RAG(最有效):先从"可信来源"(官方文档/代码库)检索真实资料,把它放进 prompt,明确要求"只基于给定材料回答,材料里没有就说不知道"——相当于让它"开卷考试",答案有据可依,能大幅减少幻觉。正解二,要求给出处/引用:让它为每个关键结论标注来源——它"要指出处"时会更克制、不敢乱编(编了你一查就露馅),也方便你核实。正解三,关键事实"程序化核实":别用眼睛信、用代码验——LLM 建议的 API,用反射/文档/实际调用去验证它是否真存在(hasattr);代码靠编译/类型检查/跑测试、数据查库核对、引用点开链接验真伪。正解四,用对工具:让它"调真实工具"而不是"凭记忆答"——查 API 接文档检索/让它生成代码再实际运行、查实时数据接搜索/数据库/计算器(function calling),别让它"心算/凭记忆",让它"动手查/动手算"。归根结底:用 RAG 给真实依据让它开卷答 + 要求标注出处便于核实 + 关键事实用代码/工具程序化验证,把"凭记忆裸答"换成"有据可查"。

第三件事:养成"不轻信、必验证"的使用纪律

除了技术手段,更重要的,是养成一套使用大模型的"心理纪律"。我把它沉淀了下来:

用 LLM 的纪律: 区分"它在创作"还是"它在陈述事实", 后者必验证

# 第一原则: 永远区分两种回答
#   A. "创作/推理类": 写代码框架、出思路、改文案、解释概念。
#      → 容错高, 错了你也看得出/影响小, 可以较信任。
#   B. "具体事实类": API名、参数、数字、日期、人名、引用、链接。
#      → 容错极低, 错一个就出问题, 必须核实! 默认不信。

# 红旗信号(听到这些, 提高警惕):
#   - 非常具体的名字/数字/版本号(越具体越可能编)。
#   - 小众库/新技术/冷门领域(它训练数据里少, 更爱编)。
#   - "训练截止之后"的信息(它不知道, 但会硬答)。
#   - 它答得"太顺、太全、太完美"(可能在补全模式)。

# 实用追问技巧(逼出幻觉):
#   - "这个方法在官方文档哪里有? 给我链接/出处。"
#   - "你确定吗? 如果不确定请明说。"(它常会改口或承认)
#   - 换个问法再问一遍, 看答案是否自相矛盾(矛盾=可能在编)。

# 心态:
#   - 把 LLM 当"知识渊博但偶尔信口开河的同事": 它的话很有参考价值,
#     但涉及关键决策/具体事实, 一定要自己再核一遍。
#   - "AI 说的" 不等于 "正确的"; 最终的对错, 责任在你。

# 核心: 区分 LLM 在"创作"还是"陈述事实", 事实类一律核实;
#   对具体名字/数字/小众领域/新信息提高警惕, 善用追问逼出幻觉。

这套"使用纪律",比任何技术手段都更根本。第一原则,永远区分两种回答:A. "创作/推理类"(写代码框架、出思路、改文案、解释概念)——容错高、错了也看得出,可以较信任;B. "具体事实类"(API 名、参数、数字、日期、人名、引用)——容错极低、错一个就出问题,必须核实、默认不信。还要警惕几个红旗信号:非常具体的名字/数字/版本号(越具体越可能编)、小众库/冷门领域(训练数据少更爱编)、训练截止之后的信息、以及它答得"太顺太全太完美"(可能在补全模式)。我也学会了几个逼出幻觉的追问技巧:"这个在官方文档哪里有?给我出处"、"你确定吗?不确定请明说"(它常会改口)、换个问法再问看是否自相矛盾。而最重要的是心态:把 LLM 当成"知识渊博但偶尔信口开河的同事"——它的话很有参考价值,但涉及关键决策/具体事实,一定要自己再核一遍;"AI 说的"不等于"正确的",最终的对错,责任在你。归根结底:区分 LLM 在"创作"还是"陈述事实",事实类一律核实;对具体名字/数字/小众领域/新信息提高警惕,善用追问逼出幻觉。

下面这张图,是这次"幻觉"事故的认知纠正与应对:

第四件事:对抗幻觉的几种手段对比

这次踩坑后,我把对抗 LLM 幻觉的几种手段,按"有效程度、适用场景"横向比了一遍。

手段	原理	有效程度	适用
RAG(给真实依据)	开卷答, 基于给定材料	★★★ 最有效	事实问答/查文档/知识库
调工具(function calling)	让它查真实数据/跑代码	★★★ 根治某类	API/实时数据/计算
要求给出处	逼它克制, 便于核实	★★ 抑制+可验	所有事实类回答
程序化核实	用代码验证它说的	★★★ 兜底保真	API/代码/数据落地前
提示"不知道就说不知道"	给它"认怂"的许可	★ 有点用	所有提问, 配合用
多次问/交叉验证	看是否自相矛盾	★ 辅助识别	怀疑时快速自查

把它们排在一起,策略就清楚了。最有效、也最该优先用的,是"RAG"和"调工具"——它们都从根本上改变了 LLM 的工作方式:RAG 让它"基于真实材料开卷答",调工具让它"去查真实数据/跑真实代码",而不是"凭那点模糊有损的记忆瞎补全",从源头消除了大部分幻觉。其余手段是抑制和兜底:要求给出处(逼它克制、便于核实)、程序化核实(用代码验证它说的,是落地前的最后一道保险)、提示"不知道就说不知道"(给它"认怂"的许可,有点用)、多次问交叉验证(看是否自相矛盾)。它给我的最大启发是:对抗幻觉,最好的办法不是"祈祷它别编",而是"从机制上,让它没有'瞎编'的空间"——给它真实的依据、让它调真实的工具、再用代码兜住底;把 LLM 从一个"闭卷凭记忆答题的学生",改造成一个"开卷、且能随时查资料、答完还有人帮它核对"的助手——这样的它,才真正可靠、可用于生产。

第五件事:幻觉在真实场景里的几种"翻车"姿势

顺着这次的教训,我把 LLM 幻觉在真实使用中翻车的典型姿势,系统梳理了一遍——它们往往很隐蔽,因为"看起来都对"。

翻车场景	幻觉表现	防范
查 API/库用法	编不存在的方法/参数(本文)	查官方文档 / RAG / 跑代码验证
问历史/事实/数据	编错日期/数字/人名, 言之凿凿	权威来源核实, 别直接引用
要文献/论文引用	编不存在的论文标题/作者/DOI	逐条到学术库核验
问法律/医疗/财务	编错条款/剂量/政策	必须由专业人士/权威渠道确认
训练截止后的新事	不知道却硬编一个"合理"答案	接搜索工具 / 明确告知它时效
生成的代码引用了假库	import 不存在的包/版本	装依赖跑通 + 检查包是否真实

这张表,让我看清了幻觉翻车的广度。它们最阴险的共同点,是"看起来都对":编造的 API 命名地道、编造的日期格式正确、编造的论文标题像模像样、编造的法律条款措辞专业——它们在"形式"上无懈可击,只在"事实"上是假的;而这种"形式正确、内容虚假"的东西,恰恰最容易骗过人的直觉、被不加核实地采信。而它们的防范,都指向同一件事——回到"权威的事实源"去核对:API 查官方文档、历史数据查权威来源、文献到学术库核验、法律医疗找专业人士、新信息接搜索工具、生成的代码装依赖跑通。它给我的最大启发是:在这个"AI 能生成一切看起来很真的东西"的时代,"分辨真伪、回到事实源头去核实"的能力,变得前所未有地重要。我们享受着 AI 带来的巨大效率,但也必须时刻绷紧一根弦:它生成的"流畅、自信、专业"的内容,不等于"真实";在做任何依赖"事实准确性"的决策前,那"亲自回到源头核实一遍"的功夫,一分都省不得。这,是 AI 时代每个人都该有的"信息素养"。

第六件事:用 LLM 获取信息时,我现在会怎么决策

现在,每当我用 LLM 去获取某个信息,脑子里都会过一遍这张决策图——核心就一问:这个信息,错了要紧吗?

这张图的灵魂,是那个必问的问题:这个信息,错了要紧吗?如果是创作/思路/解释,容错高,可以较信任地用;如果是具体事实,就再追问错了要紧吗:不要紧、仅参考的,听个大概、心里存疑即可;要紧、要落地或决策的,就绝不裸信、必须保真。保真的路径,层层递进:能给依据就用 RAG 喂真实文档开卷答、能调工具就用 function calling 查真实数据/跑代码、要求它给出处、落地前再程序化核实(查文档/跑测试/验链接);核实通过才采信,不通过就弃用、回权威源头自己查。这套判断,让我用 LLM 获取信息时,既能享受它的高效,又不会被它的幻觉坑到——核心始终是:按"信息错了的代价"高低,决定"核实"的力度。

我立下的几条规矩

这场"自信胡编"的事故,换来了我用大模型时,刻进骨子里的几条铁律:

LLM 是语言模型,不是知识库。它求"语言合理"不求"事实真实",不确定时会自信地编——这是本质,不是偶尔的 bug。
自信度 ≠ 准确度。它编假话和说真话语气一样笃定;别被"它答得很肯定"骗了。
区分"创作"和"事实"。创作类可较信任;具体事实(API/数字/引用)默认不信,必核实。
精确事实优先用 RAG / 调工具。让它开卷答、调真实工具,从机制上消除瞎编的空间,胜过事后补救。
要求给出处,落地前程序化核实。逼它给来源、用代码验证(hasattr/跑测试/验链接),别用眼睛信。
对具体名字/数字/小众领域/新信息高度警惕。越具体、越冷门、越新,越容易是编的。
"AI 说的"不等于"对的",责任在你。关键决策前,亲自回权威源头核实那一步,一分都不能省。

附:给 LLM 输出的代码加一道"幻觉自动核验"

既然知道 LLM 会编造不存在的 API/依赖,那就别靠肉眼,把"核验"自动化。下面是给"LLM 生成代码"加一道幻觉自动核验的思路:

import importlib, subprocess

# ✓ 1. 核验 LLM 建议的"对象方法"是否真实存在
def verify_method(obj, method_name):
    if not hasattr(obj, method_name):
        raise ValueError(f"幻觉! {type(obj).__name__} 没有方法 {method_name}")
    return getattr(obj, method_name)

# ✓ 2. 核验 LLM 生成代码里 import 的包是否真实存在
def verify_imports(code: str):
    import ast
    tree = ast.parse(code)
    pkgs = set()
    for node in ast.walk(tree):
        if isinstance(node, ast.Import):
            pkgs.update(a.name.split('.')[0] for a in node.names)
        elif isinstance(node, ast.ImportFrom) and node.module:
            pkgs.add(node.module.split('.')[0])
    for pkg in pkgs:
        try:
            importlib.import_module(pkg)          # 真能 import 才算存在
        except ImportError:
            print(f"⚠ 可疑: 包 '{pkg}' 无法导入, 可能是 LLM 编的或没装")

# ✓ 3. 终极核验: 把生成的代码真的跑一遍(沙箱里)
def verify_by_running(code: str):
    r = subprocess.run(["python", "-c", code], capture_output=True, text=True, timeout=10)
    if r.returncode != 0:
        print(f"✗ 代码跑不通(可能含幻觉API):\n{r.stderr}")
        return False
    return True

# ✓ 4. 流程: LLM 生成 → 自动核验 → 不通过则带着错误信息让 LLM 重试
def get_verified_code(prompt, max_retry=3):
    for i in range(max_retry):
        code = llm.generate(prompt)
        verify_imports(code)
        if verify_by_running(code):
            return code                            # ✓ 跑通了, 才采信
        prompt += f"\n上次代码报错, 请修正(注意别用不存在的API)。"
    raise RuntimeError("多次生成均含幻觉/错误")

# 核心: 别靠肉眼信 LLM 的代码 —— 用 hasattr/import/实际运行 自动核验,
#   不通过就带着报错让它重试; 把"人工核对"变成"自动化保真闭环"。

这套自动核验,把"防幻觉"从"靠人盯"升级成了"靠系统兜"。它的层层核验很清晰:第一,用 hasattr 核验它建议的方法是否真实存在(本文那个 batchUpsert 一验就露馅);第二,用 AST 解析出代码里的 import、逐个 importlib.import_module 核验包是否真实(LLM 常编造不存在的库);第三,也是最彻底的——把生成的代码真的在沙箱里跑一遍,跑不通就说明可能含幻觉 API。而最妙的是第四步的闭环:不通过时,把报错信息再喂回给 LLM、让它带着错误重试——把"LLM 生成 → 自动核验 → 失败重试"串成一个自我修正的保真闭环,直到产出真正能跑通的代码才采信。这,正是我想用这段代码,留给每一个把 LLM 用进开发流程的人的最后一课:面对 LLM 的幻觉,最优雅的应对,不是"祈祷它不犯错",也不是"每次都人工逐行核对",而是"用程序,自动地、不知疲倦地,替你把它说的每一句'事实'都验证一遍"。把"对 AI 输出的核验",像 CI/CD 一样自动化、流程化——这,才是在生产环境里,既敢用 AI、又用得安心的正确姿势。

写在最后

回头看,这场由"一个不存在的 API"引发的事故,真正教给我的,是一个比"用 RAG 防幻觉"本身更深远的道理:在 AI 时代,"提出问题、并使用 AI 的答案"变得空前容易,但"判断答案是否可信"的能力,却变得空前重要;而后者,恰恰是AI 替代不了、必须由人来承担的核心责任。我之前的错误,本质是一种"认知上的偷懒":我把"获取一个可信答案"这件事,整个外包给了 AI,却忘了"判断这个答案是否可信"这道工序,是绝不能外包的——因为 AI 本身,并不为"真实性"负责,它只为"合理性"负责。这让我深刻地意识到:AI 是一个极其强大的"认知放大器",但它放大的,既包括你的能力,也包括你的轻信;你越是不加辨别地全盘接受,就越容易被它那些"看似可信"的幻觉,带向错误的深渊。所以,在拥抱 AI 的同时,我们更要守住"独立思考、审慎求证"这块人之为人的压舱石:把 AI 当成一个能力超群、却需要你把关的"实习生"——放手让它干活,但每一个会产生后果的结论,都必须经过你的审核与负责;让 AI 扩展你的能力,而不是取代你的判断。在一个 AI 能轻易生成"看似真实"内容的世界里,"保持清醒的怀疑、并有能力回到事实源头去验证",是比任何技术都更珍贵的素养。放手用 AI 的能力,但永远握紧"判断真伪"的最终责任——这,是我用一次"幻觉"的事故,换来的、关于 AI、也关于这个时代的、最朴素也最深刻的领悟。如果这篇复盘,能让你在下一次采信 AI 给的某个"具体事实"前,多一秒迟疑、多一次核实,那我对着那个不存在的 API 熬的这大半天,就值了。

—— 别看了 · 2026

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理邮箱1846861578@qq.com。

{{userData.name}}已认证

我让大模型帮我查一个库的 API,它信誓旦旦地给了我一个方法名、连参数都写得有模有样,结果那个方法根本不存在,我对着这场一本正经的胡编排查了大半天的复盘

我让大模型帮我查一个库的 API,它信誓旦旦地给了我一个方法名、连参数都写得有模有样,结果那个方法根本不存在,我对着这场一本正经的胡编排查了大半天的复盘

故障现场:把 LLM 当知识库,直接采信它编的 API

第一件事:搞懂 LLM 为什么会"幻觉"

第二件事:正解——给依据(RAG)、要出处、必核实

第三件事:养成"不轻信、必验证"的使用纪律

第四件事:对抗幻觉的几种手段对比

第五件事:幻觉在真实场景里的几种"翻车"姿势

第六件事:用 LLM 获取信息时,我现在会怎么决策

我立下的几条规矩

附:给 LLM 输出的代码加一道"幻觉自动核验"

写在最后

我的服务某天凌晨突然全线崩溃、各种写入都报错,登上去一看磁盘被日志撑到了 100%,我对着这个被日志活活塞满的硬盘排查了大半天的复盘

我给热点数据加了缓存提速,结果用户改完资料刷新还是看到旧的、甚至并发改一下缓存就和数据库长期对不上,我对着这个缓存一致性问题排查了大半天的复盘