逻辑斯谛回归与最大熵模型

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。两者都属于对数线性模型。

逻辑斯谛回归模型

逻辑斯谛分布

首先介绍逻辑斯谛分布(logistic distribution, LR)。

是连续随机变量,服从逻辑斯谛分布是指具有下列分布函数和密度函数: 式中,为位置参数,为形状参数。

上图为函数的曲线。

如果事件发生的概率是,那么该事件的几率是,该事件的对数几率(log odds)或logit函数是

Sigmoid函数满足以下形式 该函数单调递增,值域在之间,LR为什么使用Sigmoid函数的形式?

回答: 若考虑单变量/特征,LR的假设为特征服从均值不同但方差相等的高斯分布,也就是 假设服从高斯分布的原因是形式上易处理,另外,高斯分布是熵最大的分布,平摊风险效果最好。定义风险为 其中,表示样本预测为0时的风险,表示样本预测为0时的风险,表示样本真实标签为时,预测标签为的风险。设预测正确时风险为0,则风险定义可以简化为 根据贝叶斯公式可得 最后一行, 又由于,所以可得 综上,可以推得logistic的形式。

模型参数估计

给定训练集,其中,可以利用极大似然估计法估计模型参数。设 似然函数为 对数似然函数为 最大化对数似然函数,可得最优模型参数值,可以利用梯度下降法或牛顿法。

多项逻辑斯谛回归

假设离散随机变量取值为,则多项逻辑斯谛回归模型(multi-nominal logistic regression model)是 此处,

最大熵模型

最大熵模型由最大熵原理推到实现。

最大熵原理

模型定义

模型学习

模型学习的最优化算法