如何进行多源数据融合?

# 1. 多源数据说明:

- 数据是一张表格,字段如下: User_id, S_model1, S_model2, S_model3, feature1, feature2, feature3, Y, dt

- 其中User_id是用户编号,dt是时间分区,Y是目标,feature是特征,S_model表示其它的模型分

- 不同的S_model来自不同数据源,feature1、feature2和feature3来同一个数据源

- 不同分区内,数据源有不同程度的缺失和断流

数据示例如图:

# 2. 目前的融合方案是:

将所有字段均视为特征,输入xgb进行训练。

该方案存在如下问题:

- 训练集上,xgb模型的性能较低。

- 模型上线后,用户的Y标的预测很不稳定(用户某个特征的缺失导致其Y标大幅变动,这是很不合理的)。

# 3. 请问有好的多源数据融合方法吗?能克服各数据源的缺失/断流问题,有效利用各个数据源的带来的增益,最终:

- 提高训练集上xgb模型的性能

- 提高模型对用户Y标预测的稳定性
全部评论

相关推荐

断电再接线:1. 简历排版方面,你这内容比较少,一页放完。各模块之间建议用明显的分隔线分开,现在一眼看上去非常乱。教育经历留白太多。项目经历格式不统一。 2. 第一个项目,硬件设计太笼统,硬件架构规划是指板级电路设计还是FPGA逻辑设计?FPGA时序逻辑设计具体指的什么?实现的三个低速协议以及使用协议进行控制时序,是指什么? 3. 第二个项目,我觉得你可以和第一个项目整合一下,合并为一个项目。第二个项目说实话随便买个zynq开发板都有一直petalinux的教程,作为一个独立的项目不合适的,更像是一个小作业。 4. 第三个项目,项目内容这里,其实和环境搭建之类的东西提一嘴就好了,环境准备和编译安装工具链这种东西没多大必要写,实在要写的话可以 说 使用docker 独立sdk环境之类的。你说的这个工具我没用过,我用的比较多的是busybox和buildroot,是基于menuconfig进行配置的,如果scratch也是类似的模式的话,那我觉得这个项目也经不起细推。你可以往内核裁剪那方向靠,我说的这两个工具你也可以看看。 5. 你熟悉这些接口时序的话,你可以进一步去看一下驱动开发,然后面试的时候突出这个作为重点。第三个项目也可以将驱动开发给补充进去。因为单编内核和构建文件系统,其实很多时候是体力劳动。 6. 特长这里,独立成一个荣誉奖项的模块,把你获得的奖学金和竞赛奖项放一起。数模的话,写了国赛,美赛就不用写了。 7. 总的来说可以了,你简历上写的东西你只要都熟悉,找个实习还是没问题的。 8. 嵌入式分为硬件,底层软件和应用软件,看你的经历我建议你往底层靠,多去熟悉常用的通信接口,去看内核和驱动,网络编程这块也可以去了解一下。然后去**刷刷hot100
点赞 评论 收藏
分享
爱看电影的杨桃allin春招:我感觉你在炫耀
点赞 评论 收藏
分享
评论
1
收藏
分享
牛客网
牛客企业服务