2019-07-26 01:41 已编辑北京邮电大学算法工程师

关注

2018-06-28

一、特征层面

重点关注特征构造、抽取方法

1. 业务层面：依赖于对领域内知识的了解程度。
2. 技术层面：
a）常规方法：手动构造特征，常用方法如下，

哑变量转换（one-hot）
特征分箱：分箱后的特征鲁棒性较好，计算速度较快、可进行特征交叉、较低过拟合风险等
特征交叉：特征组合的子集；类似于笛卡尔积操作
- 经典例子：经纬度（对于新特征x3，若满足0 < lat <= 10 AND 0 < lon <= 15，则值为1）
- 参考：https://blog.csdn.net/qq_35976351/article/details/80892902
特征组合：在不需要改变模型的情况下引入非线性信息，提高拟合能力
.....

b）自动构造、抽取方法：

降维：如PCA

对原始数据降维，常用来提取有用信息，在降低数据维度的同时保存绝大多数有用信息，使其特征集合小到可以建模的要求；

特征学习：主流为深度学习方法，如受限玻尔兹曼机、rnn、cnn等

可以自动学习出某些抽象的特征表示，但无法理解，适合黑盒方式。

二、算法层面

常规算法（依赖于人工提取的特征）

单模型
stacking方法：将若干个若学习器提升为强学习器；泛华能力较好，目前大多数比赛的冠军思路中都可见集成学习的身影，因其优越的泛华能力和灵活的架构设计方式受很多参赛者青睐。
- boosting：串行、侧重于降低偏差、调整样本权重来生成不同学习器；AdaBoost、xgboost
- bagging：并行、降低方差、通过自助采样生成不同训练集，进而生成不同学习器；randomforest
- stacking：多层架构、由初级学习器生成次级学习器，不断迭代训练、2~3层常见、鲁棒性较好
  
  在kaggle比赛 - Otto Group Product Classification Challenge中，冠军队伍使用了超过30多个模型进行集成：
  
  WINNER SOLUTION - Otto Group Product Classification Challenge
  - 此外，stacking还有一种特例：xgboost/gbdt+LR 融合模型
    与常规stacking的区别有：初级学习器是否异质、初级学习器的输出类型（普通stacking可以为一个具体的预测值，而stacking+lr中为该样本咋uo在叶结点的索引值）
    论文：Practical Lessons from Predicting Clicks on Ads at
    Facebook
    参考：https://blog.csdn.net/sb19931201/article/details/65445514
    https://github.com/lytforgood/MachineLearningTrick
    
    gbdt+LR

深度学习领域：

深度学习方法：借助深度神经网络的特征抽象、表示能力自动学习特征，如rnn、cnn及textrnn等

三、比赛 & 案例

kaggle-Otto Group Product Classification Challengehttps://www.kaggle.com/c/otto-group-product-classification-challenge/data
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.6acd33afppNyfH&raceId=231638
期刊 & 会议
ACL-自然语言处理领域的顶级国际会议
ICML-机器学习领域的最好的顶级会议之一
NIPS-神经计算和机器学习领域最好的顶级会议之一

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

02-16 22:33

求校招Offer比较：杉川机器人VS江波龙

杉川机器人嵌入式工程师 18.0k*13.0, 年终奖1~9个月浮动

点赞评论收藏

分享

02-17 15:42

已编辑

山东大学 Java

2/17益先科技(base 北京)一面、处子面

在boss海投遇见的一个面试，面试下午两点开始，面试官全程没有开摄像头面试显示自我介绍，面试官比较和气，没有问八股先是了解你的情况，说他们更在意学习能力请说一下你是怎么学习java开发的？下面是一道面试题:请实现一个SequenceManager类可以实现getNext()、rename()、delete()操作，类中保存一个有序队列，getNext返回当中最小的未出现的正整数，rename(int,int)实现替换前面的元素为后面的元素，要保证前面的元素存在后面元素不存在，delete(int)删除元素,很简单 class SequenceManager { Set<Integ...

查看3道真题和解析

点赞评论收藏

分享

昨天 16:50

已编辑

美的集团_美的一匹_java实习生(实习员工)

暑期实习简历

实习经历较水都是包装的，冲大厂暑期有机会吗

黑皮白袜臭脚体育生：春节刚过就开卷吗？哈基馆，你这家伙......

点赞评论收藏

分享

昨天 16:10

武汉东湖学院 Java

数字马力业务一面

Q: redis比数据库快的原因?A: Redis 比传统数据库快，主要是由于数据结构、存储方式、读写模式、网络架构等方面的差异Q: 谈下I/O的多路复用？A：I/O 多路复用是一种技术，它允许一个进程同时监控多个 I/O 流，以确定其中哪些流已经准备好进行读或写操作，从而提高系统的 I/O 处理效率和性能Q: 聊聊 缓存雪崩/缓存击穿？A：缓存雪崩：缓存雪崩是指在缓存系统中，大量缓存数据在同一时间点过期或失效，导致大量原本应该从缓存中获取的数据请求直接落到后端数据库等数据源上，造成数据库负载瞬间过高，甚至可能导致数据库崩溃，进而影响整个系统的正常运行解决方案 分散缓存过期时间使用缓存集群设...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 听劝，这个简历怎么改 #

14197次浏览 184人参与

# 面试被问“你的缺点是什么?”怎么答 #

6890次浏览 101人参与

# 水滴春招 #

16966次浏览 382人参与

# 入职第四天，心情怎么样 #

11450次浏览 63人参与

# 租房找室友 #

8105次浏览 53人参与

# 参加完秋招的机械人，还参加春招吗？ #

27120次浏览 276人参与

# 读研or工作，哪个性价比更高？ #

26233次浏览 356人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

20556次浏览 414人参与

# 职场新人生存指南 #

199448次浏览 5521人参与

# 文科生还参加今年的春招吗 #

4144次浏览 31人参与

# 简历无回复，你会继续海投还是优化再投？ #

48699次浏览 561人参与

# 如果重来一次你还会读研吗 #

155763次浏览 1706人参与

# 你见过最离谱的招聘要求是什么？ #

144758次浏览 830人参与

# 机械人选offer，最看重什么？ #

69086次浏览 449人参与

# 选择和努力，哪个更重要？ #

44409次浏览 495人参与

# 你们的毕业论文什么进度了 #

901564次浏览 8967人参与

# 如果再来一次，你还会学硬件吗 #

103702次浏览 1246人参与

# 牛友们的论文几号送审 #

16039次浏览 504人参与

# 招聘要求与实际实习内容不符怎么办 #

47000次浏览 495人参与

# 22届毕业，是读研还是拿外包offer先苟着 #

4656次浏览 27人参与

# 秋招感动瞬间 #

11968次浏览 105人参与

牛客网
牛客企业服务