逻辑斯谛回归与最大熵模型

发表于 2020-11-10 更新于 2020-11-12 分类于理论学习

本文字数： 2.8k 阅读时长 ≈ 3 分钟

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型(maximum entropy model)。两者都属于对数线性模型。

逻辑斯谛回归模型

逻辑斯谛分布

首先介绍逻辑斯谛分布(logistic distribution, LR)。

设是连续随机变量，服从逻辑斯谛分布是指具有下列分布函数和密度函数: 式中，为位置参数，为形状参数。

上图为函数的曲线。

如果事件发生的概率是，那么该事件的几率是，该事件的对数几率(log odds)或logit函数是

Sigmoid函数满足以下形式该函数单调递增，值域在之间，LR为什么使用Sigmoid函数的形式？

回答: 若考虑单变量/特征，LR的假设为特征服从均值不同但方差相等的高斯分布，也就是假设服从高斯分布的原因是形式上易处理，另外，高斯分布是熵最大的分布，平摊风险效果最好。定义风险为其中，表示样本预测为0时的风险，表示样本预测为0时的风险，表示样本真实标签为时，预测标签为的风险。设预测正确时风险为0，则风险定义可以简化为根据贝叶斯公式可得 $与均为常数$ 最后一行，又由于，所以可得综上，可以推得logistic的形式。

模型参数估计

给定训练集，其中，可以利用极大似然估计法估计模型参数。设似然函数为对数似然函数为最大化对数似然函数，可得最优模型参数值，可以利用梯度下降法或牛顿法。

多项逻辑斯谛回归

假设离散随机变量取值为，则多项逻辑斯谛回归模型(multi-nominal logistic regression model)是此处，。

Fei's Site

逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

逻辑斯谛分布

模型参数估计

多项逻辑斯谛回归

最大熵模型

最大熵原理

模型定义

模型学习

模型学习的最优化算法