-
我训练的模型效果差得离谱,梯度下降还死活不收敛,排查发现是特征没做缩放、量纲大的收入完全主导了模型、年龄几乎没起作用,我对着特征量纲不一致这个坑排查了大半天的复盘
一个让我对喂给模型的数据长什么样很重要彻底警醒的机器学习坑,隐蔽在我的特征每一个看起来都很合理(年龄收入都是好特征)、模型代码也没错,可训练出来效果差得离谱、有的算法梯度下降甚至死活不收敛——问题不在特征本身而在它们放一起时数值大小尺度差太多。用年龄(20-80)和收入(3000-1000000)等原始特征直接喂模型没做缩放,结果效果差、梯度下降 loss 震荡不收敛、收入几乎决定一切年龄几乎没影…- 0
- 0
-
验证集 99% 准确率的模型,一上线就被打回原形:我在机器学习里栽进"数据泄露"的那次自欺欺人,才懂了好看的指标未必是真本事
第一个机器学习项目预测用户流失,验证集准确率 99%,上线后却跟瞎猜没两样。复盘揪出真凶:特征里混进了 account_close_date(注销日期)——只有已流失用户才有值,几乎等价于标签本身,模型不是在预测、是在抄答案;而线上要预测的活跃用户都没注销日期,作弊特征失效就现了原形。这篇从数据泄露的本质与黄金判断标准,讲到预处理/时间序列/分组等泄露变体、主动排雷手段,以及从指标崇拜到理解模型的…- 0
- 0
特征工程
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


