2018-06-28

一、特征层面

重点关注特征构造、抽取方法

1. 业务层面:依赖于对领域内知识的了解程度。
2. 技术层面:
a)常规方法:手动构造特征,常用方法如下,

  • 哑变量转换(one-hot)
  • 特征分箱:分箱后的特征鲁棒性较好,计算速度较快、可进行特征交叉、较低过拟合风险等
  • 特征交叉:特征组合的子集;类似于笛卡尔积操作
  • 特征组合:在不需要改变模型的情况下引入非线性信息,提高拟合能力
  • .....

b)自动构造、抽取方法:

  • 降维:如PCA

对原始数据降维,常用来提取有用信息,在降低数据维度的同时保存绝大多数有用信息,使其特征集合小到可以建模的要求;

  • 特征学习:主流为深度学习方法,如受限玻尔兹曼机、rnn、cnn等

可以自动学习出某些抽象的特征表示,但无法理解,适合黑盒方式。

二、算法层面

常规算法(依赖于人工提取的特征)

  • 单模型
  • stacking方法:将若干个若学习器提升为强学习器;泛华能力较好,目前大多数比赛的冠军思路中都可见集成学习的身影,因其优越的泛华能力和灵活的架构设计方式受很多参赛者青睐。

深度学习领域:

  • 深度学习方法:借助深度神经网络的特征抽象、表示能力自动学习特征,如rnn、cnn及textrnn等
三、比赛 & 案例
  1. kaggle-Otto Group Product Classification Challengehttps://www.kaggle.com/c/otto-group-product-classification-challenge/data
  2. 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.6acd33afppNyfH&raceId=231638
    期刊 & 会议
    ACL-自然语言处理领域的顶级国际会议
    ICML-机器学习领域的最好的顶级会议之一
    NIPS-神经计算和机器学习领域最好的顶级会议之一
全部评论

相关推荐

不愿透露姓名的神秘牛友
02-16 22:33
杉川机器人 嵌入式工程师 18.0k*13.0, 年终奖1~9个月浮动
点赞 评论 收藏
分享
黑皮白袜臭脚体育生:春节刚过就开卷吗?哈基馆,你这家伙......
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务