决策树是一种自上而下,对样本数据进行树形分类的过程,由结点和有向边组成。结点分为内部结点和叶结点,其中每个内部结点表示一个特征或属性,叶结点表示类别。从顶部根结点开始,所有样本聚在一起。经过根结点的划分,样本被分到不同的子结点中。再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。
逻辑回归(Logistic Regression)是机器学习领域最基础最常用的模型,逻辑回归的原理推导以及扩展应用几乎是算法工程师的必备技能。
支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,SVM涵盖了各个方面的知识。第一节为SVM模型推导的基础知识,第二~第四节则侧重对核函数(Kernel Function)的理解。
被部门老大安排地明明白白。自学470+页项目经理PPT后,结合自身工作写的作业(假)论文。文笔有限水平一般,做过的项目不大,所以也就这么凑合着看吧,至少还是学了点东西,也不错。
在模型评估与调整的过程中,往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键。特别是在实际项目中,采用多种方法、从多个角度降低“过拟合”和“欠拟合”的风险是算法工程师应当具备的领域知识。
对很多算法工程师来说,超参数调优是件非常头疼的事。除了根据经验设定所谓的“含理值”之外,一般很难找到合理的方法去寻找超参数的最优取值。与此同时,超参数对于模型效果的影响又至关重要。
在机器学习种,我们通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型。在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法。
在互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效,新算法、新模型的效果是否有提升,新设计是否受到用户欢迎,新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段。
在模型训练过程中,在不断地评估着样本间的距离,如何评估样本距离也是定义优化目标和训练方法的基础。
在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是$[-1,1]$,相同的两个向量之间的相似度为1.如果希望得到类似于距离的表示,将1减去余弦相似度即为余弦距离。因此,余弦距离的取值范围为$[0,2]$,相同的两个向量余弦距离为0。
二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision、recall、F1 score、P-R曲线等。但这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有很多优点,经常作为评估二值分类器最重要的指标之一。