全部标签

temperature

同一句话调用大模型做意图分类,有时分对、有时分错,复现 bug 时还死活复现不出来,我查到底才发现是 temperature 把随机性引了进来:一次 LLM 采样参数设置不当、把概率组件当确定性函数用的深度复盘

我们用大模型做意图分类,把用户输入归到查询订单/申请退款/咨询客服。功能能用,但线上偶发分错:同样一句我要退钱大部分时候对、偶尔分到咨询客服;更崩溃的是测试拿出错的句子去复现,跑几次又都对了、bug 自己好了。查到底才发现是调用 LLM 时的采样参数 temperature:我图省事用了默认值(往往 0.7、1.0 偏高),而 temperature 控制输出的随机性,越高越倾向于不总选概率最高的…
技术教程
- 0
- 0
Mores6月2日
一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘

按传统软件习惯给 LLM 功能写了'断言输出==预期字符串'的测试,结果今天全绿明天红一片、啥都没改同输入结果就不一样;线上出问题的回答拿同输入还复现不了。根因是 LLM 本质非确定:生成每个词是从概率分布里采样、带随机性,同输入可能不同输出(temperature=0 也不完全保证),而'断言相等''同输入复现''缓存…
技术教程
- 0
- 0
Mores6月2日
我把大模型当成一个稳定的函数写进了自动化流程,结果同样的输入每次跑出的结果都不一样、测试时灵时不灵,我对着这种飘忽不定排查了大半天的复盘

我做的自动化流程里有一步调大模型抽取结构化字段,开发时测几遍都对就接上线了,结果同样的输入这次抽出来是 A、过会儿又变 A、再跑又不同——措辞/格式/顺序每次都变,下游精确匹配时灵时不灵、单元测试今天过明天挂。我以为是并发 bug 或 prompt 歧义,改半天没用。深挖才懂:我从一开始就用错了心智模型——把大模型当成了像 add(1,2) 永远等于 3 的确定性函数,可它本质是概率生成模型,逐 …
技术教程
- 0
- 0
Mores6月2日
大模型采样参数完全指南:从一次"同样的 prompt 每次答案都不一样、调高 temperature 就胡说"看懂 temperature 与 top_p

2024 年我做一个大模型应用里面有好几个用 LLM 的地方一个把用户反馈分类一个从订单文本里抽字段还有一个给用户生成营销文案。第一版我做得很省事不管哪个场景我都直接调接口只传 prompt 采样参数一个都不设全用默认值。本地测了测真不错分类分得对字段抽得准文案也写得有模有样。我心里很踏实调大模型嘛把 prompt 写好调一下接口不就行了。可等这套东西真正上线被反复调用一串问题冒了出来。第一种最先…
技术教程
- 0
- 0
Mores5月22日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

temperature

同一句话调用大模型做意图分类,有时分对、有时分错,复现 bug 时还死活复现不出来,我查到底才发现是 temperature 把随机性引了进来:一次 LLM 采样参数设置不当、把概率组件当确定性函数用的深度复盘

一套给大模型功能写的断言输出完全相等的单元测试,今天通过明天就挂、同样的输入每次结果还不一样,把我整懵了:一次 LLM 非确定性的深度复盘

我把大模型当成一个稳定的函数写进了自动化流程,结果同样的输入每次跑出的结果都不一样、测试时灵时不灵,我对着这种飘忽不定排查了大半天的复盘

大模型采样参数完全指南:从一次"同样的 prompt 每次答案都不一样、调高 temperature 就胡说"看懂 temperature 与 top_p