如何进行多源数据融合?

# 1. 多源数据说明:

- 数据是一张表格,字段如下: User_id, S_model1, S_model2, S_model3, feature1, feature2, feature3, Y, dt

- 其中User_id是用户编号,dt是时间分区,Y是目标,feature是特征,S_model表示其它的模型分

- 不同的S_model来自不同数据源,feature1、feature2和feature3来同一个数据源

- 不同分区内,数据源有不同程度的缺失和断流

数据示例如图:

# 2. 目前的融合方案是:

将所有字段均视为特征,输入xgb进行训练。

该方案存在如下问题:

- 训练集上,xgb模型的性能较低。

- 模型上线后,用户的Y标的预测很不稳定(用户某个特征的缺失导致其Y标大幅变动,这是很不合理的)。

# 3. 请问有好的多源数据融合方法吗?能克服各数据源的缺失/断流问题,有效利用各个数据源的带来的增益,最终:

- 提高训练集上xgb模型的性能

- 提高模型对用户Y标预测的稳定性
全部评论

相关推荐

1 收藏 评论
分享
牛客网
牛客企业服务