训练数据分布 vs 真实数据分布
真实场景中,label为a和b的样本分别占到了90%、10%。试问:在构造训练集(**小数据量**)的时候应该如何处理a,b的占比?(下面两种方案好像都有道理,但是好像又都不太理想。)
方案1.按照真实场景中的比例(i.e. a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。
方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。
#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
方案1.按照真实场景中的比例(i.e. a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。
方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。
#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
全部评论
蹲一个答案。感觉是看场景 一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好?如果两类都一样重要感觉方案1也行 就是会变成极度偏态的样子(全预测成a)
相关推荐
12-10 19:11
重庆大学 Java 香梨想要offer:一样啊朋友,我也是被驳回了,真的挺让人无语的,为什么不一开始就挂了算了,内耗我这么多天。如果华为给每个人造成的内耗能汇聚起来,该是多大一股能量
点赞 评论 收藏
分享
12-17 13:03
门头沟学院 C++ 点赞 评论 收藏
分享