2020-02-23 13:07 已编辑门头沟学院算法工程师

关注

机器学习特征工程之特征预处理

特征预处理是什么？

通过特定的统计方法（数学方法）讲数据转换成算法要求的数据。

数值型数据：

归一化
标准化
缺失值

类别型数据：one-hot编码
时间类型：时间的切分

特征选择的意义

在对数据进行异常值、缺失值、数据转换等处理后，我们需要从当前数据集中选出有意义的特征，然后输入到算法模型中进行训练。

对数据集进行特征选择主要基于以下几方面的考虑：

1.冗余的特征会影响阻碍模型找寻数据潜在的规律，若冗余的特征过多，还会造成维度容灾，占用大量的时间空间，使算法运行效率大打折扣。

2.去除不相关的特征会降低学习任务的难度，保留关键的特征更能直观的看出数据潜在的规律。

那么，该如何进行特征选择呢？通常，要从两方面考虑来选择特征：

1.特征是否具有发散性：
如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

2.特征与目标的相关性：
如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

根据特征选择的标准，又能分为filter、wrapper、embedded三种方法。

归一化

Scikit-learn归一化处理API：sklearn。preprocession.MinMaxScaler

归一化步骤：
1.实例化MinMaxScalar
2.通过fit_transform转换

归一化总结

在特定场景下最大值和最小值是变化的，另外，最大值个最小值非常容易受异常点影响，所以归一化方法的稳定性较差，只适合传统精确小数据场景。

标准化

特点：通过对原始数据进行变换把数据变化到均值为0，标准差为1范围内。

结合归一化来谈标准化

大多数使用标准化。
标准化API：scikit-learn.preprocessing.StandardScaler
目的：缩放数据。

StandardScaler语法

标准化步骤：
1.实例化StandardScaler
2.通过fit_transform转换

全部评论

推荐最新楼层

昨天 15:17

睿琪软件_产品经理(准入职员工)

滴滴内推，滴滴内推码

滴滴后端一二面面经一面40min纯技术面，面试官很友好，时不时会对你微笑，然后点头表示肯定，答对了还会说说得对。挑选一个你最想介绍的项目介绍一下，没有深挖。八股盛宴：C++、C、数据结构、数据库。总结就是不是简单的问你什么是虚函数，然后你说个虚指针，虚函数表就完事了。还会问你空指针可以调用类的方法吗？调用虚函数或者非静态成员变量的非虚函数为什么会崩溃？在什么阶段？大概就是这个意思，所以需要对每个方向的知识点有很深的理解，或者说实际开发中切实的应用过才能答得出来。二面25min个人感觉是目前为止碰到的最让人不解的面试官，全程皱着眉头，问的问题我没理解清楚也不会过多解释，直接默认我不会，然后说那我...

点赞评论收藏

01-14 11:34

门头沟学院广告设计

你的二次元老婆可能在悄悄变丑

搞理财的都知道，最近AI应用板块大涨，AI又成了资本的香饽饽（虽然一直都是），但是今天我要说一下AI应用对审美降级的影响。虽然牛客基本都是大老爷们不咋关注这些，但是，当你发现，你的二次元老婆从精美细腻的定制美人变成油腻高光流水线的AI产品，想跟老婆互动没变便宜还要额外充钱。AI应用作用于美术层面，最显著的特征是成本降低，曾经要付给画师、设计师工资稿酬，现在只需要AI生图软件启动，有点审美的老板会让画师在AI作图的基础上修改调整，而更多的老板选择砍掉设计岗位，让AI代替画师、设计师。成本降低了，但消费者的消费成本并没有降低，AI生图从22年就开始了，但相关的物品售价有降低吗？当大街小巷的广告被假...

AI让你的思考变深了还是...

点赞评论收藏

01-03 18:14

商洛学院算法工程师

找寒假实习，薪资没有要求，想学习经验

牛至超人：您好，京东物流岗了解一下吗？负责精加工食品的端到端传输

点赞评论收藏

2025-11-25 16:31

门头沟学院前端工程师

我去

牛客60022193...：大厂都招前端，他们觉得AI能替代前端，可能他们公司吊打btaj吧

点赞评论收藏

01-11 16:09

山东大学嵌入式软件工程师

牛客的争议之外，关于竞争、分享与情绪的一个旁观视角

首先讲三个故事，关于牛客的事件一：2024年，牛客上有一对高学历情侣，求职方向与我当时一致，都是嵌入式方向。他们恰好是我的朋友，专业能力和学历背景都很扎实，也因此拿到了不少优质offer。和很多求职者一样，他们把offer情况整理后发在平台上，本意是记录与交流，但很快引发了争议。有声音指责他们“集邮”“不释放名额”，认为这种展示本身就是一种炫耀。最终讨论失控，当事人删除内容，事件也很快被遗忘。事件二：小红书评论区，一条评价获得了不少共鸣：“感觉牛客就是当年那群做题区毕业了开始找工作还收不住那股味，颇有一种从年级第一掉到年纪第二后抱怨考不上大学的味道”，这条评论被水印里这个同学转发到牛客后，评论...

小型域名服务器：当看到别人比自己强的时候，即便这是对方应得的，很多人会也下意识的歪曲解构对方的意图，来消解自己在这本就不存在的比较中输掉的自信，从而平白制造出很多无谓的争论。比如你会在空余时间来写优质好文，而我回家只会暗区突围，那么我就可以作为键盘侠在这里评论你是不是XXXXXXXX。即便我自己都知道这是假的，但只要这没那么容易证伪，那么当你开始回应的时候，脏水就已经泼出去了，后面可能会有更多的人带着情绪来给我点赞，而毫不关注你写的文章内容本身是啥了。