-
一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘
按传统软件习惯给 LLM 功能写了'断言输出==预期字符串'的测试,结果今天全绿明天红一片、啥都没改同输入结果就不一样;线上出问题的回答拿同输入还复现不了。根因是 LLM 本质非确定:生成每个词是从概率分布里采样、带随机性,同输入可能不同输出(temperature=0 也不完全保证),而'断言相等''同输入复现''缓存…- 0
- 0
-
改 prompt 修一个弄坏十个:LLM 应用评测避坑
我们有个 LLM 驱动的智能助手核心逻辑全靠一段精心打磨的 prompt。某天有用户反馈某类问法助手答得不对,我一看确实是 bug,熟练地打开 prompt 加了几句话调了几个措辞把这个 case 修好了,本地试了完美便上线,满以为只是一次修一个 bug 的常规操作。可没过两天反馈像雪片飞来:好几个原本一直好好的功能突然开始出错——我修好了一个 case 却在不知不觉中弄坏了十个。复盘后背发凉:我…- 0
- 0
评测
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


