2018-06-28

一、特征层面

重点关注特征构造、抽取方法

1. 业务层面:依赖于对领域内知识的了解程度。
2. 技术层面:
a)常规方法:手动构造特征,常用方法如下,

  • 哑变量转换(one-hot)
  • 特征分箱:分箱后的特征鲁棒性较好,计算速度较快、可进行特征交叉、较低过拟合风险等
  • 特征交叉:特征组合的子集;类似于笛卡尔积操作
  • 特征组合:在不需要改变模型的情况下引入非线性信息,提高拟合能力
  • .....

b)自动构造、抽取方法:

  • 降维:如PCA

对原始数据降维,常用来提取有用信息,在降低数据维度的同时保存绝大多数有用信息,使其特征集合小到可以建模的要求;

  • 特征学习:主流为深度学习方法,如受限玻尔兹曼机、rnn、cnn等

可以自动学习出某些抽象的特征表示,但无法理解,适合黑盒方式。

二、算法层面

常规算法(依赖于人工提取的特征)

  • 单模型
  • stacking方法:将若干个若学习器提升为强学习器;泛华能力较好,目前大多数比赛的冠军思路中都可见集成学习的身影,因其优越的泛华能力和灵活的架构设计方式受很多参赛者青睐。

深度学习领域:

  • 深度学习方法:借助深度神经网络的特征抽象、表示能力自动学习特征,如rnn、cnn及textrnn等
三、比赛 & 案例
  1. kaggle-Otto Group Product Classification Challengehttps://www.kaggle.com/c/otto-group-product-classification-challenge/data
  2. 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.6acd33afppNyfH&raceId=231638
    期刊 & 会议
    ACL-自然语言处理领域的顶级国际会议
    ICML-机器学习领域的最好的顶级会议之一
    NIPS-神经计算和机器学习领域最好的顶级会议之一
全部评论

相关推荐

菜鸡29号:根据已有信息能初步得出以下几点: 1、硕士排了大本和大专 2、要求会多语言要么是招人很挑剔要么就是干的活杂 3、给出校招薪资范围过于巨大,说明里面的薪资制度(包括涨薪)可能有大坑
点赞 评论 收藏
分享
zhiyog:哈哈哈,其实是津巴布韦币
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务