关于特征值分布不均匀的问题

之前city_id作为特征后导致模型预测结果差异很大这一点,一直让我耿耿于怀,仔细思考后,其实可以这样解释:

  • 首先特征属性不对,我应该将其设为离散特征,做OHE处理,再放入模型训练。

  • 特征值分布不均匀,事实上不会影响该特征值的选择,假如该特征值确实区分了样本,即使树的左右子节点样本数量相差很大,也是照样划分啊!

  • 之前的结果很大一部分原因,还是类别分布不均匀导致的!杭州的值普遍大且样本多,宁波的值普遍小且样本少,导致结果值偏大,这就类似与分类问题正样本少,负样本多,导致结果偏向于为负。


关于特征值分布不均匀的问题
http://yoursite.com/2018/12/06/机器学习/关于特征值分布不均匀的问题/
作者
Wei Lyu
发布于
2018年12月6日
许可协议