文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只有在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、SVM等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。
文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只有在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、SVM等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。