在很多实际问题中,常常需要面对多种高维特征。若简单进行两两组合,依然会存在参数过多、过拟合等问题,并且不是所有的特征组合都是有意义的。因此需要一种有效的方法来帮助自己找到应该对哪些特征进行组合。

如何有效地找到组合特征?

该方法为一种基于决策树的特征组合寻找方法。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用、付费)、物品类型(图书、数码等)4个方面的信息,并且根据原始输入和标签(点击/未点击)构造出决策树,如图:

每一条从根节点到叶夜间的路径都可以看成一种特征组合的方式。具体来说,就有以下4种特征组合方式:

(1)“年龄 ≤ 35” 且 “性别 = 女”

(2)“年龄 ≤ 35” 且 “物品类别 = 图书”

(3)“用户类型 = 付费” 且 “物品类型 = 数码”

(4)“用户类型 = 付费” 且 “年龄 ≤ 40”

下表是两个样本信息,则第一个样本按照上述4个特征组合就可以编码为(1, 1, 0, 0),因为同时满足(1)(2),但不满足(3)(4)。同理,第二个样本可以编码为(0, 0, 1, 1),因为它同时满足(3)(4),但不满足(1)(2)。

给定原始输入可以采用梯度提升决策树,此方法思想是每次都在之前构造的决策树的残差上构建下一颗决策树。