逻辑回归(Logistic Regression)是机器学习领域最基础最常用的模型,逻辑回归的原理推导以及扩展应用几乎是算法工程师的必备技能。

逻辑回归相比于线性回归,有何异同?

首先,逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者的本质区别。在逻辑回归种,因变量取值是一个二元分布,模型学习得出的是$E[y|x;θ]$,即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类问题。而线性回归这种实际上求解的是$y’=θ^Tx$,是对我们假设的真实关系$y=θ^Tx+ε$的一个近似,其中代表误差项,我们使用$ε$这个近似项来处理回归问题。

分类和回归是如今机器学习中两个不同的任务,而属于分类算法的逻辑回归,命名有一定的历史原因。这个方法最早由统计学家David Cox在他1958年论文《二元序列中的回归分析》(The regression analysis of binary sequences)中提出,当时人们对于回归和分类的定义与今天有一定区别,只是把“回归”这个名字沿用了。实际上,将逻辑回归的公式进行整理,可以得到$log\frac{p}{1-p}=θ^Tx$,其中$p=P(y=1|x)$,也就是将给定输入$x$预测为正样本的概率。如果把一个事件的几率(odds)定义为该事件发生的概率与该事件不发生的概率的比值$\frac{p}{1-p}$,那么逻辑回归可以看作是对于“$y=1|x$”这一时间的对数几率的线性回归,于是“逻辑回归”这一称谓也就延续下来。

在关于逻辑回归的讨论中,我们均认为$y$是因变量,而非$\frac{p}{1-p}$,这便引出逻辑回归与线性回归最大的区别,即逻辑回归中的因变量为离散的,而线性回归中的因变量是连续的。并且在自变量$x$与超参数$θ$确定的情况下,逻辑回归可以看做广义线性模型(Generalized Linear Models)在因变量$y$服从二元分布时的一个特殊情况;而使用最小二乘法求解线性回归时,我们认为因变量$y$服从正态分布。

当然逻辑回归和线性回归也不乏相同之处,首先我们可以认为二者都使用了极大似然估计来对训练样本进行建模。线性回归使用最小二乘法,实际上就是在自变量$x$与超参数$θ$确定,因变量$y$服从正态分布的假设下,使用极大似然估计的一个化简;而逻辑回归种通过对似然函数

的学习,得到最佳参数$θ$。另外,二者在求解超参数的过程中,都可以使用梯度下降的方法,这也是监督学习种一个常见的相似之处。

当使用逻辑回归处理多标签的分类问题时,有哪些常见做法,分别应用于哪些场景,它们之间又有怎样的联系?

使用哪一种办法来处理多分类的问题取决于具体问题的定义。首先,如果一个样本只对应于一个标签,我们可以假设每个样本属于不同标签的概率服从于几何分布,使用多项逻辑回归(Softmax Regression)来进行分类

其中$θ_1,θ_2,…,θ_k\in\mathbb{R}^n$为模型的参数。

$\frac{1}{\sum_{j=1}^ke^{θ^T_jx}}$可以看作是对概率的归一化。为了方便起见,把{$θ_1,θ_2,…,θ_k$}这$k$个列向量按顺序排列形成$n*k$维矩阵,写作$θ$,表示整个参数集。一般来说,多项逻辑回归具有参数冗余的特点,即将$θ_1,θ_2,…,θ_k$同时加减一个向量后预测结果不变,特别地,当类别数为2时,

利用参数冗余的特点,我们将所有参数减去$θ_1$,上式变为

其中$θ=θ_2-θ_1$。而整理后的式子与逻辑回归一致。因此,多项逻辑回归实际上是二分类逻辑回归在多标签分类下的一种拓展。

当存在样本可能属于多个标签的情况时,我们可以训练$k$个二分类的逻辑回归分类器。第$i$个分类器用以区分每个样本是否可以归为第$i$类,训练该分类器时,需要把标签重新整理为“第$i$类标签”与“非第$i$类标签”两类。通过这样的办法,就解决了每个样本可能拥有多个标签的情况。