全部标签

AI工程

一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘

按传统软件习惯给 LLM 功能写了'断言输出==预期字符串'的测试,结果今天全绿明天红一片、啥都没改同输入结果就不一样;线上出问题的回答拿同输入还复现不了。根因是 LLM 本质非确定:生成每个词是从概率分布里采样、带随机性,同输入可能不同输出(temperature=0 也不完全保证),而'断言相等''同输入复现''缓存…
技术教程
- 0
- 0
Mores6月2日
一个直接把大模型回答当权威答案展示给用户的功能,因为模型一本正经地编造了一个不存在的政策条款,把用户彻底带偏:一次 LLM 幻觉的深度复盘

做了个智能客服直接让大模型回答政策问题,用户投诉:客服言之凿凿说支持 30 天无理由全额退款且运费我方承担,真去退却被告知根本没这政策。根因是知识库里压根没这条、模型凭空编造了它——这就是 LLM 幻觉:它本质是预测下一个词的生成模型、目标是流畅而非真实,不知道时不会说不知道而是自信地编一个,且编得笃定专业可信(自信≠正确),而我们直接把它的话当权威展示、没让它基于真实知识库、没做任何校验。本文讲…
技术教程
- 0
- 0
Mores6月2日
一个直接把大模型返回当 JSON 来解析的接口,在线上偶发地解析崩溃——因为模型有时会贴心地多说几句话:一次 LLM 结构化输出的深度复盘

让大模型把文本抽取成 JSON,后端拿到回复直接 json.loads 入库,测试几十条都好好的,一上线就偶发 JSONDecodeError。打出原始返回一看:模型有时裹一层 markdown 代码围栏、有时前面加一句'好的这是结果'、有时多个尾逗号或写成中文引号。根因是 LLM 本质是概率性生成文本、不保证返回严格合法 JSON,却被当成确定可靠的接口直接解析。本文讲透 L…
技术教程
- 2
- 0
Mores6月2日
一次只升级了查询侧 embedding 模型、却忘了重建向量库的 RAG 事故,让检索召回全变成噪声、问答彻底答非所问:一次向量空间不一致的深度复盘

给 RAG 知识库换了个'更好的'embedding 模型,只改了一行查询侧配置就发布,结果问答准确率从 80% 断崖跌到 10% 以下——而且代码一个错都不报。根因是只换了查询侧模型、忘了用新模型重建整个向量库:库里是旧模型的向量、查询是新模型的向量,两个向量空间不可比,相似度沦为噪声,召回近似随机。本文讲透 embedding 向量空间为何必须建库与查询同模型,给出换模型必…
技术教程
- 0
- 0
Mores6月2日
从古老 LLM 应用体系 prompt 字符串拼接散落各处无版本管理 + 全靠模型记忆胡编幻觉满天飞 + 直接裸调原始 API 无重试无超时无降级 + 上下文硬塞超长被无声截断 + 无缓存重复 query 重复烧钱 + 同步阻塞调用用户干等几十秒 + 输出靠正则硬抠 JSON 经常解析失败 + 模型硬编码换个模型改一堆代码 + 无评估靠人肉看效果全凭感觉 + 无护栏 prompt 注入和有害输出裸奔 → 2026 现代 LLM 应用体系 prompt 模板化版本化管理 + RAG 检索增强生成消除幻觉 + LLM 网关统一接入重试超时降级多模型路由 + 上下文窗口管理与压缩 + 语义缓存省钱 + 流式 SSE 输出 + 结构化输出 function calling + 自动化 eval 与 LLM-as-judge + 输入输出 guardrails 护栏 + token 用量延迟成本全链路可观测 87 天战役复盘:47 套工程修法 + 7 个 P0 复盘 + 6 条工程哲学

13 位 AI 工程与 LLM 应用工程师 87 天把一套用了两年的粗放 LLM 应用体系——prompt 就是散落在各业务函数里的字符串拼接、同一意图好几份措辞不一改一处忘改另一处、全靠模型预训练记忆硬答不知道也一本正经地胡编乱造幻觉满天飞、直接 import 某家 SDK 裸调 API 无超时无重试无降级一家厂商抖动整个功能全废、上下文硬塞超长被无声截断关键信息丢失、无缓存海量语义相同的问题重…
技术教程
- 0
- 0
Mores5月28日
LLM 应用工程化完全指南:从一次"内部工具被运营用一周烧掉几千块"看懂为什么不是调 API 就完了

2024 年我给一个内部工具加了 LLM 能力让运营同学用自然语言查数据库做报表第一版我没多想直接拿 GPT-4 接了上去把用户的问题塞进 prompt 拿到 SQL 执行返回结果我心里很笃定 LLM 应用嘛不就是 prompt 一塞模型一调结果一返三步走可等真把这套东西放到运营同学手里一串麻烦冒了出来第一种最先把我打懵同样的问题问两次返回的 SQL 不一样有时候带 LIMIT 有时候不带运营拿着…
技术教程
- 0
- 0
Mores5月24日
RAG 检索增强生成完全指南:从一次"知识库问答系统答非所问还编造"看懂为什么 RAG 不是切块加搜索

2024 年我给一个企业知识库做问答系统把公司几千份文档灌进去让员工用自然语言提问系统找出相关内容用大模型生成回答这是个典型的 RAG 检索增强生成场景第一版我做得很顺手用一个开源切块工具把所有文档按 500 字一段切开每一段算一个向量塞进向量数据库用户提问时把问题也算成向量从库里取相似度最高的 top-5 块拼成一段长上下文塞给大模型让它照着回答我心里很笃定 RAG 嘛不就是切块加向量搜索加拼接…
技术教程
- 2
- 0
Mores5月24日
LLM Agent 提示词工程完全指南:从一次"规则写得越全模型越不听话"看懂系统提示词设计

2024 年我给一个电商平台做客服 Agent 用户用自然语言提问 Agent 调大模型理解意图必要时查后台接口再生成回答整个 Agent 的行为几乎全靠一段 system prompt 来约束第一版我写 system prompt 写得很顺手我把所有想要的行为一条一条用大白话写进去你是一个客服助手要礼貌要专业回答要简洁不能泄露内部系统信息遇到退货要先问订单号遇到投诉要先安抚不知道答案时不要乱编我…
技术教程
- 15
- 0
Mores5月23日
RAG 知识库质量完全指南:从一次"知识库越塞越多回答反而越差"看懂为什么文档质量决定一切

2024 年我给公司搭一个 RAG 知识库问答系统把公司内部的各种文档产品手册技术规范培训材料会议纪要灌进一个向量库用户问一个问题系统检索出最相关的几段喂给大模型生成回答第一版我做得很顺手写了个脚本把存放公司文档的那个共享目录整个遍历一遍所有文件 Word PDF Markdown 还有一堆 txt 统统读出来原样切成固定长度的块算 embedding 全塞进向量库本地我拿几个问题测了测答得有模有…
技术教程
- 4
- 0
Mores5月22日
向量数据库选型完全指南:从一次"向量库把服务拖到 OOM"看懂为什么不能随便挑一个

2024 年我给公司一个文档问答系统做向量检索用户问一句话系统从几万篇内部文档里找出最相关的几段喂给大模型生成回答第一版我做得很顺手装了一个能在进程内跑的嵌入式向量库服务启动时把所有文档的 embedding 一次性算好全部 add 进去查询时调一个 search 拿最近邻本地我拿几百篇文档测了测查得又快又准我心里很笃定向量数据库嘛不就是个存向量查最近邻的工具随便挑一个能跑的把向量塞进去就行选哪个…
技术教程
- 0
- 0
Mores5月22日
LLM Agent 多步规划完全指南:从一次"Agent 绕圈子停不下来"看懂为什么不能让模型自己跑

2024 年我给团队做一个能自动跑数据分析的 Agent用户用大白话提一个分析需求 Agent 自己去查数据库算指标做对比最后给一段结论我给它配了几个工具执行只读 SQL 的 run_sql 做数值计算的 calc 第一版我做得很顺手写一个系统提示词告诉模型你是数据分析助手一步步思考可以调用工具然后在外面套一个循环调一次大模型如果它要调工具就执行把结果塞回对话如果它说做完了就返回答案本地我拿两三个…
技术教程
- 5
- 0
Mores5月22日
RAG 检索重排序完全指南:从一次"向量检索答案却总不对"看懂为什么 top-K 不能直接喂模型

2024 年我给一家公司做企业知识库的 RAG 问答把几千份内部文档喂进去让员工用大白话提问系统自动从文档里找答案第一版我做得很顺手把文档切成一段段的 chunk 每段算一个 embedding 存进向量库用户来一个问题把问题也算成 embedding 在向量库里检索出最接近的 5 段拼成上下文塞进 prompt 交给大模型回答本地我拿几个问题测了测答得像模像样我心里很笃定 RAG 嘛就是把问题和…
技术教程
- 2
- 0
Mores5月22日
LLM 语义缓存完全指南:从一次"缓存命中率几乎为零"看懂为什么不能用字符串匹配

2024 年我给一个 AI 客服系统加缓存这个客服每天要处理上万条用户咨询每一条都调一次大模型账单看着肉疼我想加个缓存吧同样的问题答过一次就把答案存下来下次直接返回不用再调模型第一版我做得很顺手用一个字典把用户的问题字符串当 key 大模型的回答当 value 来一个问题先查字典命中就直接返回没命中才调模型然后把这一对存进去本地我测了测反复问怎么退款第二次开始就秒回了命中率看着很漂亮我心里很笃定缓…
技术教程
- 0
- 0
Mores5月22日
LLM 多轮对话上下文管理完全指南:从一次"聊到十几轮突然崩"看懂为什么模型没有记忆

2024 年我做一个 AI 对话助手用户能和大模型一轮一轮地连续对话像聊天一样模型要记得前面聊过什么第一版我做得很顺手我维护一个 messages 列表用户每说一句就 append 进去模型每答一句也 append 进去每一轮调用模型时就把这个列表里的全部历史原样发过去本地我聊了五六轮测了测模型确实记得前面的内容答得很连贯我心里很笃定多轮对话嘛无非就是把之前所有的对话历史每轮都带上模型看到完整历史…
技术教程
- 7
- 0
Mores5月22日
LLM 高并发调用完全指南:从一次"批量任务一上量就 429 刷屏"看懂为什么并发不是越高越快

2024 年我做一个批量分析功能产品攒下了几万条用户评论要给每一条都调一次大模型分析出它的情绪提到的功能点是不是一条有效反馈第一版我做得很顺手写一个循环遍历每一条评论循环体里调一次大模型的 API 把返回的分析结果存进数据库本地我拿几十条评论测了一遍循环顺畅地跑完结果也对我心里很笃定这不就是个循环里调 API 的活儿嘛数据多无非多跑一会儿这批量功能稳了可等我拿真实的几万条数据跑起来一串问题冒了出来…
技术教程
- 2
- 0
Mores5月22日
LLM 成本优化完全指南:从一次"换了便宜模型账单却没降多少"看懂为什么 token 用量才是大头

2024 年我做一个 AI 文档问答功能用户问一个问题系统从公司的文档库里找出相关内容连同问题一起塞进提示词调大模型生成回答第一版我做得很顺手用户的问题来了我把可能相关的文档段落都拼进提示词调一个能力最强的大模型把答案返回本地一测回答得又准又全我心里很笃定 AI 功能嘛把上下文给足用最好的模型效果就有保证这功能稳了可等它一上线有了真实用量一串问题冒了出来第一种最先把我打懵 API 账单是按天出的某…
技术教程
- 0
- 0
Mores5月22日
Few-shot 提示工程完全指南:从一次"加了几个例子分类反而更偏了"看懂示例为什么是双刃剑

2024 年我做一个用户反馈分类功能用户提交的每一条反馈自动归到 Bug 报告功能建议使用咨询情绪吐槽四类里的一类方便团队分流处理第一版我做得很顺手写一段任务说明发给模型本地测了几条有的对有的错效果飘忽我想起 few-shot 这个技巧给模型几个例子让它照着做于是我在提示词里塞了几个反馈加它属于哪类的示例一加上准确率肉眼可见地涨了我心里很笃定 few-shot 嘛就是多给几个例子例子越多模型学得越…
技术教程
- 0
- 0
Mores5月22日
LLM 应用评估完全指南:从一次"改了提示词修好一个 case 结果碰坏一片"看懂为什么肉眼看例子不算测试

2024 年我做一个 AI 功能用户输入一段商品描述让大模型帮忙提炼出标题卖点和适用人群这件事我没多想就有了方案写一个提示词把用户的描述塞进去调模型把结果返回第一版我做得很顺手提示词写好本地拿三五个商品描述一试模型提炼得有模有样我心里很笃定提示词调到自己看着顺眼就算做好了可等它真正开始迭代一串问题冒了出来第一种最先把我打懵有用户反馈某类商品的提炼很差我改了改提示词把那个 case 修好了结果第二天…
技术教程
- 0
- 0
Mores5月22日
LLM 幻觉缓解完全指南:从一次"模型一本正经编了个不存在的制度条款"看懂喂资料为什么挡不住瞎编

2024 年我做一个企业内部的知识库问答助手员工用自然语言问公司的制度产品流程助手调用大模型把答案讲出来这件事我没多想就有了方案把员工的问题直接发给大模型让它回答第一版我做得很顺手一个接口收到问题拼一个提示词发给模型把模型的回答返回本地拿几个常见问题一测模型答得有模有样我心里很笃定大模型这么聪明问它公司的事它答得头头是道可等真正交给员工用一串问题冒了出来第一种最先把我打懵有人问一个具体的制度条款模…
技术教程
- 2
- 0
Mores5月22日
LLM 流式输出完全指南:从一次"用户点了发送对着空白屏幕等十几秒"看懂为什么 AI 对话必须用流式

2024 年我做一个网页端的 AI 对话功能用户输入一个问题后端调用大模型把模型的回答显示出来这件事我没多想就有了方案后端调用模型拿到完整的回答字符串返回给前端前端显示出来第一版我做得很顺手后端一个接口里面调模型的 API 等它返回那段完整的文本把文本塞进 JSON 响应里返回前端拿到响应把文本渲染到对话框本地拿几个短问题一测问今天星期几这种一秒不到就出来了我心里很笃定调模型嘛不就是发个请求等个响…
技术教程
- 3
- 0
Mores5月22日
LLM 思维链完全指南:从一次"让模型直接报答案它算错了多步应用题"看懂 Chain of Thought 为什么有效

2024 年我做一个需要模型做推理的功能让大模型解应用题根据一组规则算出结果做多步的逻辑判断我想要的很明确用户问一个问题模型干净利落地给出答案怎么让模型答得准这件事我没多想就有了方案把问题问清楚然后让它直接给答案别废话第一版我做得很顺手我在 prompt 里把题目写明白末尾加一句只输出最终答案不要任何解释本地拿几道简单题一测答得又快又准我心里很笃定让模型答题嘛问题问清楚让它直接给结果这套推理稳了可…
技术教程
- 4
- 0
Mores5月22日
RAG 文档切分完全指南:从一次"答不上手册里明明写着的答案"看懂 Chunking 为什么决定检索质量上限

2024 年我做一个文档问答系统用户上传一份产品手册然后能用自然语言向它提问系统去手册里找答案也就是现在常说的 RAG 它的核心套路我很清楚把文档切成一块一块每块算一个向量存进向量库用户提问时把问题也算成向量检索出最相似的几块连同问题一起喂给大模型作答这一整条链路里有一步叫把文档切成块怎么切这件事我没多想就有了方案按字数切第一版我做得很顺手我写了个函数把文档每五百个字切成一块一块接一块整整齐齐本地…
技术教程
- 0
- 0
Mores5月22日
LLM 工具调用完全指南:从一次"模型说正在查询其实什么都没做"看懂 Function Calling 的真正机制

2024 年我做一个 AI 助手想让它能回答我那个订单发货了吗明天杭州下不下雨这类问题这些问题的答案不在模型脑子里得去查订单系统查天气接口怎么让模型用上这些外部能力这件事我没多想就有了方案把工具告诉模型第一版我做得很顺手我在系统提示里写了一段话大意是你有一个查订单的工具和一个查天气的工具需要时就用本地一测我问查一下订单 A1001 模型回了一句好的正在为您查询订单 A1001 我心里一暖觉得它听懂…
技术教程
- 2
- 0
Mores5月22日
LLM 上下文窗口管理完全指南:从一次"对话变长后机器人开始胡说八道"看懂 token 预算与多轮记忆

2024 年我做一个客服对话机器人用户和机器人多轮对话怎么让模型记得前面聊过的事这件事我没多想就有了方案把历史对话也一起发过去第一版我做得很顺手每来一条新消息就把之前的所有对话历史连同新消息一起拼成一个长长的 prompt 发给模型本地测试聊上五六轮前言后语接得严丝合缝我心里很笃定我把全部历史都给它了它当然什么都记得可等这个机器人真正上线面对会聊得很长的真实用户一串问题冒了出来第一种最先把我打懵对…
技术教程
- 0
- 0
Mores5月22日