逻辑回归

逻辑回归是一种分类模型,该模型使用输入变量来预测分类结果变量,而分类结果变量又可呈现出一组有限的分类值中的其中一个值。二项逻辑回归只限于两个二进制输出类别,而多项逻辑回归则可扩展至两个以上的输出类。逻辑回归示例包括将二进制条件分类为“健康”/“不健康”,或将图像分类为“自行车”/“火车”/“汽车”/“卡车”。逻辑回归将逻辑 sigmoid 函数应用于加权输入值以生成数据类预测。

logisticregression

逻辑回归模型可预测作为自变量函数值的因变量的概率。因变量是我们尝试预测的输出,而自变量或解释变量是我们认为可能影响输出的因素。多元回归是指具有两个或两个以上自变量的回归分析,而多变量回归则是指具有两个或两个以上因变量的回归分析。

线性回归与逻辑回归

线性回归是更常见的回归形式,通过一组数据点拟合线性模型。输出值 y 可预测为一条直线,且该直线可用如下表达式表示:

y = mixi + c + E

其中,xi 为输入变量,参数 mi、c 和 E 分别为回归系数、常数偏移量和误差。系数 mi 可解释为相应自变量每增加一个单位引起的因变量的增加量。普通线性回归模型中的参数是线性的,输入变量(自变量)和输出变量(因变量)通常以常数方差分布。

广义线性回归无需数据输入,也可具有正态分布。测试数据可具有任何分布。逻辑回归是广义线性回归的特例,其中响应变量须遵循 logit 函数。

logit 函数的输入为概率 p,值介于 0 和 1 之间。概率 p 的比值比定义为 p/(1-p),logit 函数定义为比值比或对数几率的对数。

Logit(p) = Log(odds) = Log (p/(1-p))

逻辑回归的拟合优度

逻辑回归模型的质量由拟合度量和预测能力决定。R 平方是一个衡量指标,可以根据因变量度量对逻辑函数中自变量的预测效果,取值范围介于 0 到 1 之间。可以通过多种不同方法计算 R 平方,包括 Cox-Snell R2 和 McFadden R2。另一方面,我们还可使用 Pearson 卡方、Hosmer-Lemeshow 和 Stukel 测试等测试方法来度量拟合优度。正确测试类型的选用标准取决于多个因素,诸如 p 值分布、相互作用和二次效应以及数据分组。

逻辑回归的应用

逻辑回归类似于非线性感知器或不具有隐藏层的神经网络。逻辑回归在数据稀缺领域具有极高的应用价值,例如在医学和社会科学领域中,逻辑回归可用于分析和解释实验结果。由于回归简单快速,因而也适用于十分庞大的数据集。不过,回归无法用于预测连续结果或与非独立数据集一并使用。使用逻辑回归时,还可能出现模型过拟合数据的情况。

深度学习中的逻辑回归

深度学习中,通常可将用于分类的神经网络的最后一层解释为逻辑回归。在此情况下,深度学习算法可视作多个特征学习阶段,且学习完后会将所学特征传递到专对输入进行分类的逻辑回归中。调整这些深度学习模型以使之在 GPU 上执行有助大幅提高性能。NVIDIA 深度学习 SDK 提供了强大的工具和资料库,专门服务于设计及部署 GPU 加速深度学习应用程序,其中包括逻辑回归。深度学习 SDK 需要使用 CUDA 工具包,此工具包可为构建 GPU 加速深度学习算法提供全面的开发环境。

其他资源

1.  “Deep Learning in a Nutshell: Core Concepts”作者:Tim Dettmers,Parallel For All,NVIDIA,2015 年 11 月 3 日。
2.  “Deep Learning for Object Detection with DIGITS”作者:Jon Barker 和 Shashank Prasanna,Parallel For All,NVIDIA,2016 年 8 月 11 日。
3.  “Logistic Regression Tutorial”作者:Omid Rouhani,Research Tutorial,2007 年 7 月 3 日。
4.  “GLMs, CPUs, and GPUs: An introduction to machine learning through logistic regression, Python and OpenCL”作者:Matt Antalek,Medium,2017 年 4 月 20 日。
5.  “Measures of Fit for Logistic Regression”作者:Paul Allison,SAS Global Forum,2014 年 3 月 23 日。