关于特征归一化的笔记

为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,使得不同指标之间具有可比性。

为什么需要对数据值类型的特征做归一化?

对数值类型的特征做归一化可以把所有特征都统一到一个大致相同的数值区间内。最常用的方法有以下两种:

(1)线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下:

$$X_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}$$
其中$X$为原始数据,$X_{max}$、$X_{min}$分别为数据最大值和最小值。

(2)零均值归一化(Z-Score Normalization)。它会将原始数据映射到均值为0、标准差为1的分布上。具体来说, 假设原始特征的均值为$μ$、标准差为$σ$,那么归一化公式为:

$$Z = \frac{x - μ}{σ}$$

数据归一化可以使得特征更新速度变得更一致,更容易通过梯度下降得到最优解。

数据归一化并不是万能的。在实际应用中,通过梯度下降求解的模型通常需要归一化,包括线性回归、逻辑回归、SVM、NN等模型,但对于决策树模型并不适用。例如C4.5决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比,而信息增益比跟特征是否经过归一化无关,因此归一化并不会改变样本在特征x上的信息增益。