2020-09-22 20:31 门头沟学院产品经理

关注

【机器学习笔记day02】1. sklearn与特征工程+数据的特征工程 +特征工程的意义 +特征工程之特征处理+ 特征工程之特征抽取与特征选择

文章目录

1. sklearn与特征工程
Scikit-learn与特征工程

1. sklearn与特征工程

Scikit-learn与特征工程

“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据，那么需要进行一些特征处理，特征的缩放等等，满足训练数据的要求。

我们将初次接触到Scikit-learn这个机器学习库的使用

Scikit-learn

Python语言的机器学习工具
所有人都适用，可在不同的上下文中重用
基于NumPy、SciPy和matplotlib构建
开源、商业可用 - BSD许可
目前稳定版本0.18

自2007年发布以来，scikit-learn已经成为最给力的Python机器学习库（library）了。scikit-learn支持的机器学习算法包括分类，回归，降维和聚类。还有一些特征提取（extracting features）、数据处理（processing data）和模型评估（evaluating models）的模块。作为Scipy库的扩展，scikit-learn也是建立在Python的NumPy和matplotlib库基础之上。NumPy可以让Python支持大量多维矩阵数据的高效操作，matplotlib提供了可视化工具，SciPy带有许多科学计算的模型。 scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎。开发者用scikit-learn实验不同的算法，只要几行代码就可以搞定。scikit-learn包括许多知名的机器学习算法的实现，包括LIBSVM和LIBLINEAR。还封装了其他的Python库，如自然语言处理的NLTK库。另外，scikit-learn内置了大量数据集，允许开发者集中于算法设计，节省获取和整理数据集的时间。

安装的话参考下面步骤：创建一个基于Python3的虚拟环境：

mkvirtualenv -p /usr/local/bin/python3.6 ml3

在ubuntu的虚拟环境当中运行以下命令

pip3 install Scikit-learn

然后通过导入命令查看是否可以使用：

import sklearn

数据的特征工程

从数据中抽取出来的对预测结果有用的信息，通过专业的技巧进行数据处理，是的特征能在机器学习算法中发挥更好的作用。优质的特征往往描述了数据的固有结构。最初的原始特征数据集可能太大，或者信息冗余，因此在机器学习的应用中，一个初始步骤就是选择特征的子集，或构建一套新的特征集，减少功能来促进算法的学习，提高泛化能力和可解释性。

例如：你要查看不同地域女性的穿衣品牌情况，预测不同地域的穿衣品牌。如果其中含有一些男性的数据，是不是要将这些数据给去除掉

特征工程的意义

更好的特征意味着更强的鲁棒性
更好的特征意味着只需用简单模型
更好的特征意味着更好的结果

特征工程之特征处理

特征工程中最重要的一个环节就是特征处理，特征处理包含了很多具体的专业技巧

特征预处理
- 单个特征
  - 归一化
  - 标准化
  - 缺失值
- 多个特征
  - 降维
    - PCA

特征工程之特征抽取与特征选择

如果说特征处理其实就是在对已有的数据进行运算达到我们目标的数据标准。特征抽取则是将任意数据格式（例如文本和图像）转换为机器学习的数字特征。而特征选择是在已有的特征中选择更好的特征。后面会详细介绍特征选择主要区别于降维。

全部评论

推荐最新楼层

11-28 14:58

重庆邮电大学测试工程师

秋招结束！！！

终于还是给哥们泡出来啦！化身O孝子！！！终于可以休息啦！！！回顾一下流程：9.11：投递9.13：测评10.16：专业面试11.4：综合面试11.8：hr面试11.25：等了两周，周一看到offer排序啦11.26：晚上7点左右收到签约沟通会邮件11.27：下午参加签约沟通会11.28：收到录用通知书，秋招结束！只要不放弃，一定能找到合适的工作的！！！大家加油！！！不要放弃！！！

是天烛：！！！泡出来啦！泡出来啦！

不知道为什么，看到你终于拿到自己满意的offer我就是很感动

可能从看你有勇气拒唯一的海康开始，我就被你折服了

这真的是最好的结局！

点赞评论收藏

不愿透露姓名的神秘牛友

11-30 13:18

互联网大厂奇葩领导

我们这个奇葩领导pua ，冷血、怕出错 昨天开会，团队有个人休陪产假，他说是生完了休还是没生就开始休。是不是修完陪产假，还要休年假，他这样不行客户没人跟，问清楚了。 全场都惊了。这种人是什么心理呢，帮我分析分析。 曾经pua我，一度怀疑自己的能力，缓了三天才好 动不动就说裁员，威胁，阴阳怪气，话说不明白，总是让你猜。一天十几个反问句。“为什么为什么为什么会这样呢？！” “你们都干啥呢” “骂人一层楼都能听见”。又好笑又觉得疯癫，座位上打哈欠说我们没战斗力。 我忽然觉得我在职场中，没遇到过这种人。

点赞评论收藏

10-28 11:14

门头沟学院嵌入式软件工程师

被逼签了。。。

#牛客创作赏金赛#没想到被hr逼签了，怎么说呢，也是带着遗憾结束秋招吧，有一个心仪的企业还没开奖，但是早早OC了。逼签的这个公司待遇也不差，当天决定的时候，也没有很多欢喜或是不甘，就这样吧，结束秋招！下午邮寄三方！

人品酱：还是佬太优秀了

公司都抢着要

牛客创作赏金赛

点赞评论收藏

11-23 10:38

蚌埠坦克学院服装/纺织设计

华为待录用是啥意思

心急如焚问 hr 情况，hr 淡定回复说我待录用。咱也不知道华为这又臭又长的流程到底是个啥意思。万能的牛友可以出来科普一下流程吗😂。  #华为#   #华子oc时间线#   #华为开奖那些事#

沉淀一会：**圣经 1.同学你面试评价不错，概率很大，请耐心等待；2.你的排名比较靠前，不要担心，耐心等待；3.问题不大，正在审批，不要着急签其他公司，等等我们！4.预计9月中下旬，安心过节；5.下周会有结果，请耐心等待下；6.可能国庆节前后，一有结果我马上通知你；7.预计10月中旬，再坚持一下；8.正在走流程，就这两天了；9.同学，结果我也不知道，你如果查到了也告诉我一声；10.同学你出线不明朗，建议签其他公司保底！11.同学你找了哪些公司，我也在找工作。

华子oc时间线华为开奖那些事

点赞评论收藏