特征归一化
什么是特征归一化
特征归一化(Normalization)一般是将数据映射到指定的范围,用于去除不同维度数据的量纲以及量纲单位.
常见的映射范围有 [0, 1] 和 [-1, 1]
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性
为什么需要对数值类型的特征做归一化
对数值类型的特征做归一化可以将所有的特征统一到一个大致相同的数值区间内.
特征归一化的方法
主要掌握前面两种
线性函数归一化/0-1标准化/min-max标准化
Yi=Xmax−XminXi−Xmin
零均值归一化
z=σx−μ
线性比例变换法/最大值标准化
Yi=XmaxXi
非线性归一化
-
log
Yi=log10Xmaxlog10Xi -
指数
-
正切
特征归一化的用途
归一化适用梯度下降法求解的模型,包括线性回归,逻辑回归,支持向量机SVM,神经网络等模型.但对于决策树模型则并不适用
用sklearn来做归一化