训练数据分布 vs 真实数据分布

真实场景中,label为a和b的样本分别占到了90%、10%。试问:在构造训练集(**小数据量**)的时候应该如何处理a,b的占比?(下面两种方案好像都有道理,但是好像又都不太理想。)

    方案1.按照真实场景中的比例(i.e.  a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。 

    方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。 

#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
全部评论
蹲一个答案。感觉是看场景 一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好?如果两类都一样重要感觉方案1也行 就是会变成极度偏态的样子(全预测成a)
点赞 回复 分享
发布于 2023-10-15 14:43 江苏

相关推荐

12-10 19:11
重庆大学 Java
香梨想要offer:一样啊朋友,我也是被驳回了,真的挺让人无语的,为什么不一开始就挂了算了,内耗我这么多天。如果华为给每个人造成的内耗能汇聚起来,该是多大一股能量
点赞 评论 收藏
分享
铁锈不腻玩家:下面那个袁先生删了,问他怎么回事,头像都换不明白
点赞 评论 收藏
分享
评论
3
4
分享
牛客网
牛客企业服务