-
一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘
按传统软件习惯给 LLM 功能写了'断言输出==预期字符串'的测试,结果今天全绿明天红一片、啥都没改同输入结果就不一样;线上出问题的回答拿同输入还复现不了。根因是 LLM 本质非确定:生成每个词是从概率分布里采样、带随机性,同输入可能不同输出(temperature=0 也不完全保证),而'断言相等''同输入复现''缓存…- 0
- 0
测试
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

