| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 最小二乘法、正则化 -> 正文阅读 |
|
[人工智能]最小二乘法、正则化 |
????????下面先以一元线性回归为例推导出一元线性回归方程,然后再推导出更一般化的线性回归方程,在推导的过程中采取两种不同的方式:一是从样本数据出发,二是从统计理论着手。最后我们会发现,采用两种不同的方式最后推导出的线性回归模型的损失函数都会殊途同归。线性回归简单点讲就是对已知的样本数据进行最优拟合,然后通过拟合出的线性回归方程进行预测。 1 线性回归1.1 一元线性回归????????我们最早接触的一元线性回归方程,只包含两个参数 α \alpha α 和 β \beta β,然后直接套公式即可进行预测,现在完整的推导出一元线性回归方程。设一元线性回归方程为 y ^ = α x + β \hat{y}=\alpha x+\beta y^?=αx+β ,数据集为( x 1 x_1 x1?, y 1 y_1 y1?),( x 2 x_2 x2?, y 2 y_2 y2?), … \dots … ,( x n x_n xn?, y n y_n yn?),要使得这 n n n 个样本点落在在一元线性回归方程附近,不妨假设误差为 ε \varepsilon ε,使得每个样本点都落在一元线性回归方程上。因此有 y i ^ = y i + ε i \hat{y_i}=y_i+\varepsilon_i yi?^?=yi?+εi? 恒成立,所以,回归直线应满足的条件是:全部观测值与对应的回归估计值的误差平方和最小,即:
arg
?
min
?
α
,
β
∑
i
=
1
n
ε
i
2
=
arg
?
min
?
α
,
β
∑
i
=
1
n
(
y
i
?
y
i
^
)
2
=
arg
?
min
?
α
,
β
∑
i
=
1
n
(
y
i
?
α
x
i
?
β
)
2
(1-1)
\begin{aligned} \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n\varepsilon_i^2 & = \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n (y_i-\hat{y_i})^2 \\ & = \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n (y_i-\alpha x_i -\beta)^2 \end{aligned} \tag{1-1}
argminα,β?i=1∑n?εi2??=argminα,β?i=1∑n?(yi??yi?^?)2=argminα,β?i=1∑n?(yi??αxi??β)2?(1-1) 1.3 一般化的线性回归????????此时,假设数据集为: Y = ( y 1 y 2 ? y N ) N × 1 (1-8) \pmb{Y}=\begin{pmatrix} y_1\\y_2\\\vdots\\y_N \end{pmatrix}_{N\times 1}\tag{1-8} YYY=??????y1?y2??yN????????N×1?(1-8) ????????上面数据矩阵的解释:数据
X
\pmb{X}
XXX 中有
N
N
N 个样本,每个样本
x
i
\pmb{x}_i
xxxi? 为
p
p
p 维数据(含有
p
p
p 个 ????????后面我们记: ????????定义假设函数为 f ( x ; w ) f(\pmb{x}; \pmb{w}) f(xxx;www),即 f ( x ; w ) f(\pmb{x}; \pmb{w}) f(xxx;www) 为最终的拟合函数, w \pmb{w} www 为待拟合参数也称作权重。则第 i i i 个样本的输出模型为: f ( x i ; w ) = w 0 + w 1 x i 1 + ? + w p x i p = [ w 0 , w 1 , ? ? , w p ] [ 1 x i 1 ? x i p ] = w T x i (1-10) \begin{aligned} f(\pmb{x}_i; \pmb{w}) &=w_0+w_1x_{i1}+\cdots+w_{p}x_{ip} \\ &=\begin{bmatrix} w_0, & w_1,& \cdots ,& w_p \end{bmatrix} \begin{bmatrix} 1\\x_{i1} \\ \vdots \\ x_{ip}\end{bmatrix}\\ &=\pmb{w}^T\pmb{x}_i \end{aligned} \tag{1-10} f(xxxi?;www)?=w0?+w1?xi1?+?+wp?xip?=[w0?,?w1?,??,?wp??]??????1xi1??xip????????=wwwTxxxi??(1-10) ????????此时这里,为了书写方便,在 x i \pmb{x}_i xxxi? 中增加一个 x i 0 = 1 \pmb{x}_{i0}=1 xxxi0?=1。 ????????在样本数据中 y i y_{i} yi? 是实际存在值而 f ( x i ; w ) f(\pmb{x}_i; \pmb{w}) f(xxxi?;www) 对应的是模型预测值,显然如果想要模型预测的效果好,那么对应的误差就要小,假设函数在任意样本点的误差为 ∣ f ( x i ; w ) ? y i ∣ |f(\pmb{x}_i; \pmb{w})-y_{i}| ∣f(xxxi?;www)?yi?∣,则 N N N 个样本点的误差和为 ? ∑ i = 1 N ∣ f ( x i ; w ) ? y i ∣ \ \sum\limits_{i=1}^N|f(\pmb{x}_i; \pmb{w})-y_{i}| ?i=1∑N?∣f(xxxi?;www)?yi?∣,因此问题就转化为求解 ? arg ? min ? w ? ∑ i = 1 N ∣ f ( x i ; w ) ? y i ∣ \ \begin{aligned}\mathop{\arg\min}_{\boldsymbol{w}}\ \sum\limits_{i=1}^N|f(\pmb{x}_i; \pmb{w})-y_{i}|\end{aligned} ?argminw??i=1∑N?∣f(xxxi?;www)?yi?∣?,为了后续求解最优值(绝对值函数不好求导),所以损失函数采用了误差平方和的形式 ? arg ? min ? w ∑ i = 1 N ( f ( x i ; w ) ? y i ) 2 \ \begin{aligned}\mathop{\arg\min}_{\boldsymbol{w}} \sum\limits_{i=1}^N(f(\pmb{x}_i; \pmb{w})-y_{i})^2\end{aligned} ?argminw?i=1∑N?(f(xxxi?;www)?yi?)2?。 1.4 最小二乘法的矩阵表达????????令损失函数为
L
(
w
)
L(\pmb{w})
L(www),并写成二范数的形式,可以得到: ????????展开可以得到: ????????上面的推导中,由于 w T x 1 ? y 1 \pmb{w}^T\pmb{x}_1-y_1 wwwTxxx1??y1? 和 w T X T Y \pmb{w}^T\pmb{X}^T\pmb{Y} wwwTXXXTYYY 都是一个数,所以转置前后相等。 ????????接下来通过对
w
\pmb{w}
www 求导就可以解得参数
w
\pmb{w}
www: ????????这个式子中
(
X
T
X
)
?
1
X
T
(\pmb{X}^T\pmb{X})^{-1}\pmb{X}^T
(XXXTXXX)?1XXXT 又被称为伪逆。 对于行满秩或者列满秩的
X
X
X,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对
X
\pmb{X}
XXX 求奇异值分解,得到 1.5 最小二乘法的几何意义1. 每个样本点的误差的总和 ![]() ????????因此将所有点的误差求和 ∑ i = 1 N ∣ ∣ w T x i ? y i ∣ ∣ 2 2 \sum\limits_{i=1}^N||\pmb{w}^T\pmb{x}_i-y_i||^2_2 i=1∑N?∣∣wwwTxxxi??yi?∣∣22? ,使得其最小,便可求得最优的回归函数。 2. 几何角度 ????????而模型可以写成
Y
^
=
X
w
\hat{\pmb{Y}} = \boldsymbol{Xw}
YYY^=Xw,也就是
X
\pmb{X}
XXX 中列向量的某种组合,而最小二乘法就是说希望
Y
\pmb{Y}
YYY 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:
1.6 概率视角-高斯噪声-最大似然估计法????????从统计理论上进行解释,实际值与估计值总会存在误差,所以 对于给定的 y i y_{i} yi? 总能找到 ε i \varepsilon_{i} εi? 使得这个等式成立 y i = f ( x i ; w ) + ε i y_{i}=f(\pmb{x}_i; \pmb{w})+\varepsilon_{i} yi?=f(xxxi?;www)+εi?, ? ε i \ \varepsilon_{i} ?εi? 代表真实值和预测值之间的误差且 ε i ~ N ( 0 , σ 2 ) \varepsilon_{i} \sim {N}(0,\sigma^2) εi?~N(0,σ2),由于这里在计算 y i y_{i} yi? 的时候,给定了 x i \pmb{x}_{i} xxxi? 和一组 w \pmb{w} www, 因此 w T x i \pmb{w}^{T}\pmb{x}_i wwwTxxxi? 可以看做常数,则 y i ∣ x i ; w ~ N ( w T x i , σ 2 ) y_i|\pmb{x}_i;\pmb{w}\sim N(\pmb{w}^{T}\pmb{x}_i,\sigma ^{2}) yi?∣xxxi?;www~N(wwwTxxxi?,σ2),即 p ( y i ∣ x i ; w ) = 1 2 π σ e x p { ? ( y i ? w T x i ) 2 2 σ 2 } p(y_i|\pmb{x}_i;\pmb{w})=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\right \} p(yi?∣xxxi?;www)=2π?σ1?exp{?2σ2(yi??wwwTxxxi?)2?} ????????这里的 p ( y i ∣ x i ; w ) p(y_i|\pmb{x}_i;\pmb{w}) p(yi?∣xxxi?;www) 并不代表条件概率密度函数,只是一个记号它表示给定 x i , y i \pmb{x}_{i}, y_{i} xxxi?,yi? 和一组 w \pmb{w} www 后的概率密度函数。 ????????可以使用最大似然估计法(
L
(
w
)
=
∏
i
=
1
N
p
(
y
i
∣
x
i
;
w
)
=
∏
i
=
1
N
1
2
π
σ
e
x
p
{
?
(
y
i
?
w
T
x
i
)
2
2
σ
2
}
(1-18)
\begin{aligned} L(\pmb{w})&=\prod\limits_{i=1}^Np(y_{i}|\pmb{x}_{i};\pmb{w})\\ &=\prod\limits_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma} exp\{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\} \end{aligned} \tag{1-18}
L(www)?=i=1∏N?p(yi?∣xxxi?;www)=i=1∏N?2π?σ1?exp{?2σ2(yi??wwwTxxxi?)2?}?(1-18) ????????可以发现两种方法推导出的损失函数都是一样的,因此从概率角度用最大似然估计法
2 正则化
????????面对上述过拟合的现象有一些解决方案,主要有:
L
1
:
arg
?
min
?
w
L
(
w
)
+
λ
∣
∣
w
∣
∣
1
,
λ
>
0
L
2
:
arg
?
min
?
w
L
(
w
)
+
λ
∣
∣
w
∣
∣
2
2
,
λ
>
0
(2-1)
\begin{aligned} L1&:\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+\lambda||\pmb{w}||_1,\lambda\gt0\\ L2&:\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+\lambda||\pmb{w}||^2_2,\lambda \gt 0 \end{aligned} \tag{2-1}
L1L2?:wargmin?L(www)+λ∣∣www∣∣1?,λ>0:wargmin?L(www)+λ∣∣www∣∣22?,λ>0?(2-1) 2.1 L1-Lasso1. L1正则化求解参数 ????????从另一个方面看,L1 正则化相当于:
arg
?
min
?
w
L
(
w
)
s
.
t
.
∣
∣
w
∣
∣
1
<
C
(2-2)
\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})\\ s.t. ||\pmb{w}||_1\lt C \tag{2-2}
wargmin?L(www)s.t.∣∣www∣∣1?<C(2-2) 2. L1正则化的概率解释 ????????贝叶斯学派认为参数
w
\pmb{w}
www 也是服从某种概率分布的,即先给定
w
\pmb{w}
www 的先验分布为
p
(
w
)
p(\pmb{w})
p(www),然后根据贝叶斯定理,
P
(
w
∣
Y
)
=
P
(
Y
∣
w
)
P
(
w
)
P
(
Y
)
~
P
(
Y
∣
w
)
P
(
w
)
P(\pmb{w}|\pmb{Y})=\dfrac{P(\pmb{Y}|\pmb{w})P(\pmb{w})}{P(\pmb{Y})} \sim P(\pmb{Y}|\pmb{w})P(\pmb{w})
P(www∣YYY)=P(YYY)P(YYY∣www)P(www)?~P(YYY∣www)P(www) (这里的
Y
\pmb{Y}
YYY 指
Y
∣
X
\pmb{Y}|\pmb{X}
YYY∣XXX,为书写简单而省略,代表给定的
X
\pmb{X}
XXX 对应相关的
Y
\pmb{Y}
YYY。),因此通过最大似然估计可求参数
w
\pmb{w}
www。 ????????假设
w
\pmb{w}
www 服从的先验分布为均值为
0
0
0 参数为
λ
\lambda
λ 的拉普拉斯分布,即
w
~
L
a
(
0
,
λ
)
\pmb{w}\sim La(0, \lambda)
www~La(0,λ) 其中,
p
(
w
)
=
1
2
λ
e
?
∥
w
∥
1
λ
p(\pmb{w})= \frac{1}{2\lambda}e^{- \dfrac{\left \| \boldsymbol{w}\right \|_{1}}{\lambda}}
p(www)=2λ1?e?λ∥w∥1??。因此,上述优化函数可转换为: 2.2 L2-Ridge1. L2正则化求解参数
J
(
w
)
=
L
(
w
)
+
λ
∣
∣
w
∣
∣
2
2
=
(
w
T
X
T
?
Y
T
)
(
X
w
?
Y
)
+
λ
w
T
w
=
w
T
X
T
X
w
?
2
w
T
X
T
Y
+
Y
T
Y
+
λ
w
T
w
=
w
T
(
X
T
X
+
λ
I
)
w
?
2
w
T
X
T
Y
+
Y
T
Y
(2-6)
\begin{aligned}J(\pmb{w}) &=L(\pmb{w})+\lambda||\pmb{w}||^2_2\\ &=(\pmb{w}^{T}\pmb{X}^{T}-\pmb{Y}^{T})(\pmb{X}\pmb{w}-\pmb{Y})+\lambda \pmb{w}^{T}\pmb{w}\\ &=\pmb{w}^{T}\pmb{X}^{T}\pmb{X}\pmb{w}-2\pmb{w}^{T}\pmb{X}^{T}\pmb{Y}+\pmb{Y}^{T}\pmb{Y}+\lambda \pmb{w}^{T}\pmb{w}\\ &=\pmb{w}^{T}(\pmb{X}^{T}\pmb{X}+\lambda I)\pmb{w}-2\pmb{w}^{T}\pmb{X}^{T}\pmb{Y}+\pmb{Y}^{T}\pmb{Y}\end{aligned} \tag{2-6}
J(www)?=L(www)+λ∣∣www∣∣22?=(wwwTXXXT?YYYT)(XXXwww?YYY)+λwwwTwww=wwwTXXXTXXXwww?2wwwTXXXTYYY+YYYTYYY+λwwwTwww=wwwT(XXXTXXX+λI)www?2wwwTXXXTYYY+YYYTYYY?(2-6) ????????半正定矩阵 X T X \pmb{X}^{T}\pmb{X} XXXTXXX 加上对角矩阵 λ I \lambda\pmb{I} λIII 一定是可逆的,可以解决 X T X \pmb{X}^{T}\pmb{X} XXXTXXX 可能不可逆带来的问题。从数学角度上看,使得其可逆;从直观角度来看,抑制了过拟合的可能性。 2. L2正则化的概率解释 arg ? min ? w ? L ( w ) ? ∑ i = 1 N l n ( p ( w ) ) = L ( w ) ? ∑ i = 1 N l n 1 2 π σ 0 e x p { ? ∥ w ∥ 2 2 2 σ 0 2 } = L ( w ) ? ∑ i = 1 N l n 1 2 π σ 0 + 1 2 σ 0 2 ∑ i = 1 N ∥ w ∥ 2 2 ? arg ? min ? w L ( w ) + λ ∥ w ∥ 2 2 (2-9) \begin{aligned} &\mathop{\arg\min}\limits_{\boldsymbol{w}}\ L(\pmb{w})-\sum\limits_{i=1}^N\mathcal ln (p(\pmb{w}))\\ &=L(\pmb{w})-\sum\limits_{i=1}^N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma_0}exp\left \{-\dfrac{\left \| \boldsymbol{w}\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \}\\ &=L(\pmb{w})-\sum\limits_{i=1}^N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma_0} + \frac{1}{2\sigma_0^2}\sum\limits_{i=1}^N \left \| \boldsymbol{w}\right \|_{2}^{2}\\ &\Leftrightarrow\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+ \lambda \left \| \boldsymbol{w}\right \|_{2}^{2} \end{aligned} \tag{2-9} ?wargmin??L(www)?i=1∑N?ln(p(www))=L(www)?i=1∑N?ln2π?σ0?1?exp{?2σ02?∥w∥22??}=L(www)?i=1∑N?ln2π?σ0?1?+2σ02?1?i=1∑N?∥w∥22??wargmin?L(www)+λ∥w∥22??(2-9) 思路二: ????????后验概率为 P ( w ∣ Y ) = P ( Y ∣ w ) P ( w ) P ( Y ) ~ P ( Y ∣ w ) P ( w ) P(\pmb{w}|\pmb{Y})=\dfrac{P(\pmb{Y}|\pmb{w})P(\pmb{w})}{P(\pmb{Y})} \sim P(\pmb{Y}|\pmb{w})P(\pmb{w}) P(www∣YYY)=P(YYY)P(YYY∣www)P(www)?~P(YYY∣www)P(www) (这里的 Y \pmb{Y} YYY 指 Y ∣ X \pmb{Y}|\pmb{X} YYY∣XXX,为书写简单而省略,代表给定的 X \pmb{X} XXX 对应相关的 Y \pmb{Y} YYY。) w ^ = a r g m a x w ?? p ( Y ∣ w ) p ( w ) p ( Y ) = a r g m a x w ?? p ( Y ∣ w ) p ( w ) = a r g m a x w ?? l n { p ( Y ∣ w ) p ( w ) } = a r g m a x w ?? l n ∏ i = 1 N { p ( y i ∣ w ) p ( w ) } = a r g m a x w ?? ∑ i = 1 N l n { p ( y i ∣ w ) p ( w ) } = a r g m a x w ?? ∑ i = 1 N l n { 1 2 π σ exp ? { ? ( y ? w T x ) 2 2 σ 2 } 1 2 π σ 0 exp ? { ? ∥ w ∥ 2 2 σ 0 2 } } = a r g m a x w ∑ i = 1 N { l n ( 1 2 π σ 1 2 π σ 0 ) ? ( y ? w T x ) 2 2 σ 2 ? ∥ w ∥ 2 2 σ 0 2 } = a r g m a x w ?? ∑ i = 1 N { ? ( y ? w T x ) 2 2 σ 2 ? ∥ w ∥ 2 2 σ 0 2 } = a r g m i n w ?? ∑ i = 1 N { ( y ? w T x ) 2 2 σ 2 + ∥ w ∥ 2 2 σ 0 2 } = a r g m i n w ?? ∑ i = 1 N { ( y ? w T x ) 2 + σ 2 σ 0 2 ∥ w ∥ 2 } = a r g m i n w ?? ∑ i = 1 N { ( y i ? w T x i ) 2 ? L S E + σ 2 σ 0 2 ? λ ∥ w ∥ 2 } (2-11) \begin{aligned} \hat{\pmb{w}} &= arg\underset{\boldsymbol{w}}{max}\ \ {p(\pmb{Y}|\pmb{w})p(\pmb{w})\over p(\pmb{Y})}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ p(\pmb{Y}|\pmb{w})p(\pmb{w})\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \mathcal ln{\{p(\pmb{Y}|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \mathcal ln \prod_{i=1}^{N}{\{p(y_i|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N}\mathcal ln{\{p(y_i|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N} \mathcal ln {\{{1\over\sqrt{2\pi}\sigma}\exp{\{-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}\}}{1\over\sqrt{2\pi}\sigma_0}\exp{\{-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}}\}}\\ &=arg\underset{\boldsymbol{w}}{max} \sum_{i=1}^{N} \{\mathcal ln {({1\over\sqrt{2\pi}\sigma}{1\over\sqrt{2\pi}\sigma_0})}-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N} \{-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}+{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{(y-\pmb{w}^T\pmb{x})^2+{\sigma^2\over \sigma^2_0}\Vert \pmb{w} \Vert ^2 \}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{ \underset{LSE}{ \underbrace{(y_i-\pmb{w}^T\pmb{x}_i)^2}}+\underset{\lambda}{\underbrace{\sigma^2\over \sigma^2_0}}\Vert \pmb{w} \Vert ^2\}\\ \end{aligned}\tag{2-11} www^?=argwmax???p(YYY)p(YYY∣www)p(www)?=argwmax???p(YYY∣www)p(www)=argwmax???ln{p(YYY∣www)p(www)}=argwmax???lni=1∏N?{p(yi?∣www)p(www)}=argwmax???i=1∑N?ln{p(yi?∣www)p(www)}=argwmax???i=1∑N?ln{2π?σ1?exp{?2σ2(y?wwwTxxx)2?}2π?σ0?1?exp{?2σ02?∥www∥2?}}=argwmax?i=1∑N?{ln(2π?σ1?2π?σ0?1?)?2σ2(y?wwwTxxx)2??2σ02?∥www∥2?}=argwmax???i=1∑N?{?2σ2(y?wwwTxxx)2??2σ02?∥www∥2?}=argwmin???i=1∑N?{2σ2(y?wwwTxxx)2?+2σ02?∥www∥2?}=argwmin???i=1∑N?{(y?wwwTxxx)2+σ02?σ2?∥www∥2}=argwmin???i=1∑N?{LSE (yi??wwwTxxxi?)2??+λ σ02?σ2???∥www∥2}?(2-11) ????????可以看到,这个最大后验估计
小结????????线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候, ????????传统的机器学习方法或多或少都有线性回归模型的影子:
参考
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年6日历 | -2025/6/19 2:02:47- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |