-
同一句话调用大模型做意图分类,有时分对、有时分错,复现 bug 时还死活复现不出来,我查到底才发现是 temperature 把随机性引了进来:一次 LLM 采样参数设置不当、把概率组件当确定性函数用的深度复盘
我们用大模型做意图分类,把用户输入归到查询订单/申请退款/咨询客服。功能能用,但线上偶发分错:同样一句我要退钱大部分时候对、偶尔分到咨询客服;更崩溃的是测试拿出错的句子去复现,跑几次又都对了、bug 自己好了。查到底才发现是调用 LLM 时的采样参数 temperature:我图省事用了默认值(往往 0.7、1.0 偏高),而 temperature 控制输出的随机性,越高越倾向于不总选概率最高的…- 0
- 0
-
一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘
按传统软件习惯给 LLM 功能写了'断言输出==预期字符串'的测试,结果今天全绿明天红一片、啥都没改同输入结果就不一样;线上出问题的回答拿同输入还复现不了。根因是 LLM 本质非确定:生成每个词是从概率分布里采样、带随机性,同输入可能不同输出(temperature=0 也不完全保证),而'断言相等''同输入复现''缓存…- 0
- 0
-
我把大模型当成一个稳定的函数写进了自动化流程,结果同样的输入每次跑出的结果都不一样、测试时灵时不灵,我对着这种飘忽不定排查了大半天的复盘
我做的自动化流程里有一步调大模型抽取结构化字段,开发时测几遍都对就接上线了,结果同样的输入这次抽出来是 A、过会儿又变 A、再跑又不同——措辞/格式/顺序每次都变,下游精确匹配时灵时不灵、单元测试今天过明天挂。我以为是并发 bug 或 prompt 歧义,改半天没用。深挖才懂:我从一开始就用错了心智模型——把大模型当成了像 add(1,2) 永远等于 3 的确定性函数,可它本质是概率生成模型,逐 …- 0
- 0
-
大模型采样参数完全指南:从一次"同样的 prompt 每次答案都不一样、调高 temperature 就胡说"看懂 temperature 与 top_p
2024 年我做一个大模型应用里面有好几个用 LLM 的地方一个把用户反馈分类一个从订单文本里抽字段还有一个给用户生成营销文案。第一版我做得很省事不管哪个场景我都直接调接口只传 prompt 采样参数一个都不设全用默认值。本地测了测真不错分类分得对字段抽得准文案也写得有模有样。我心里很踏实调大模型嘛把 prompt 写好调一下接口不就行了。可等这套东西真正上线被反复调用一串问题冒了出来。第一种最先…- 0
- 0
temperature
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!




