Logistic Regression 原理及推导 python实现

4天前来源：CSDN博客

一、问题引入

首先，Logistic回归是一种广义的线性回归模型，主要用于解决二分类问题。比如，现在我们有N个样本点，每个样本点有两维特征x1和x2，在直角坐标系中画出这N个样本的散点图如下图所示，

php?url=0Fftm4NLsv" alt="Logistic Regression 原理及推导 python实现" />
蓝色和红色分别代表两类样本。现在我们的目标是，根据这N个样本所表现出的特征以及他们各自对应的标签，拟合出一条直线对两类样本进行分类，直线的上侧属于第一类，直线的下侧属于第二类。那么我们如何寻找这条直线呢？我们知道，一条直线可以用简单的公式表示

y=θ0+θ1x1+θ2x2+...=θTx

参数θT的选择决定了直线的位置，如果我们选取了一组参数θ
导致直线的位置是这样的
Logistic Regression 原理及推导 python实现

那肯定不合理，因为两类样本完全没有被分开，而如果我们得到了这样一条直线
Logistic Regression 原理及推导 python实现

两类样本虽然存在一些小错误，但是基本上被分开了。由此，我们可以看到，Logistic Regression问题最终变成了求解最优参数θ的问题。

二、原理

样本的每一维特征的取值在经过参数θ线性组合之后取值范围是实数集（-inf, inf），而要想对实数进行二分类就要通过一个函数将实数投影到某个有限区间上，在有限区间内找到一个阈值，大于这个阈值分为第一类，小于等于这个阈值分为第二类。LR找到的这个投影函数就是sigmoid函数

g(z)=11+ez

值域为（0，1），当x=0时，函数值为0.5。在实际分类中，由于假设样本均匀分布，所以阈值通常选取为0.5。

现在我们有N个样本x1x2x3...，每个样本有一个类别标签y(y=0 or y=1)与之对应，我们知道它们的对应关系可以由参数θ来估计，因此用极大似然估计法来求解我们我们的目标θ。首先，把问题变成一个概率问题：
在某个x和θ的取值下，y=1的概率为hθ(x)，

P(y=1|x;θ)=hθ(x)

在某个x和θ的取值下，y=0的概率为1hθ(x)，

P(y=0|x;θ)=1hθ(x)

由于y只有两种取值：0和1，因此综合两种情况，对于每一个样本点来说，

P(y|x;θ)=(hθ(x))y(1hθ(x))1y

考虑样本集中的所有样本点，由于每个样本之间相互独立，因此它们的联合分布等于各自边际分布之积，
L(θ)=i=1mP(yi|xi;θ)=(hθ(xi))yi(1hθ(x

Logistic Regression 原理及推导 python实现

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎