如何进行多源数据融合?

# 1. 多源数据说明:

- 数据是一张表格,字段如下: User_id, S_model1, S_model2, S_model3, feature1, feature2, feature3, Y, dt

- 其中User_id是用户编号,dt是时间分区,Y是目标,feature是特征,S_model表示其它的模型分

- 不同的S_model来自不同数据源,feature1、feature2和feature3来同一个数据源

- 不同分区内,数据源有不同程度的缺失和断流

数据示例如图:

# 2. 目前的融合方案是:

将所有字段均视为特征,输入xgb进行训练。

该方案存在如下问题:

- 训练集上,xgb模型的性能较低。

- 模型上线后,用户的Y标的预测很不稳定(用户某个特征的缺失导致其Y标大幅变动,这是很不合理的)。

# 3. 请问有好的多源数据融合方法吗?能克服各数据源的缺失/断流问题,有效利用各个数据源的带来的增益,最终:

- 提高训练集上xgb模型的性能

- 提高模型对用户Y标预测的稳定性
全部评论

相关推荐

mq2:我倒是觉得这种敞亮一点好。能接受就去不能就不去呗。 完了跟现在“正常”公司一样,hr说的天花乱坠,进去一看根本就是996核动力牛马,想走又没应届生身份了。岂不是更糟。
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
04-14 18:14
坐标某3线小城市,周休2天半,月工资1800老板给我发信息,我不去,结果她破防了……
职场不咸鱼:这人的意思是这份工作一直1800吗[掉小珍珠了休息也太少了,一天才六十几块钱。。。
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客企业服务