赛博土木A-深度学习02:线性回归
回归:能为一个或多个自变量与因变量之间关系建模的一类方法。
1 线性回归模型
线性回归基于如下假设:
- 自变量与因变量的关系是线性的。
- 包含噪声值,且噪声值是正常的。
将线性回归与机器学习模型进行结合,现有数据即训练数据集,每组自变量与因变量视为一个样本(数据点)($(\mathbf{x}^i,y^i)$)。自变量称为特征($\mathbf{x}^{i}=[x^i_1,x^i_2,\ldots,x^i_m]^T$),因变量即标签($y^i$)。
2 线性模型
线性模型基本形式是对自变量的加权和:
其中,$\hat{y^i}$ 是样本的预测值,$\omega_j$是权重,b是偏置,以向量形式表示, $\mathbf{x},\mathbf{w} \in \mathbb{R}^m$:
可以通过矩阵表示整个数据集(规模为$n$),$\mathbf{X} \in \mathbb{R}^{n \times m}$:
无论采样什么样的手段来观察特征$\mathbf{X}$和标签$\mathbf{y}$也会存在观测误差,因此需要添加噪声项用以表示观测误差。
与机器学习组件进行对应,可以发现$\mathbf{w},b$是模型参数,形成完整的机器学习结构还需要如下两个组件:
- 一种模型质量的度量方式。
- 一种能够更新模型以提高模型预测质量的方法。
3 损失函数
损失函数用于量化目标实际值与预测值之间的差距(损失),一般使用正整数表示。
平方误差公式:
这里的$\frac{1}{2}$仅仅是为了求导后形式简单而选择的。
理想的参数$(\mathbf{w}^,b^)$使得在样本上损失最小:
4 解析解
对于线性回归模型,理想参数(解)可以用公式进行表示,可以称为解析解。
将偏置融入$\mathbf{w}$结合形成新的向量$\mathbf{w}$,问题转化为最小化$||\mathbf{y}-\mathbf{Xw}||^2$:
5 随机梯度下降
但是大多数情况下是无法获得解析解的,因此需要寻找一种方式来找到理想参数。
梯度下降是在损失函数递减的方向是更新参数来降低误差。最简单的做法是计算损失函数关于模型参数的导数。
为了加快速度,通常更新时从训练集中抽取小批样本进行计算
(1)初始化模型参数的值,如随机初始化;
(2)从数据集中随机抽取小批量样本且在负梯度的方向上更新参数,并不断迭代这一步骤。
对于平方损失和仿射变换,我们可以明确地写成如下形式:
$|\mathcal{B}|$表示每个小批量中的样本数,这也称为批量大小。$\eta$表示学习率。这两个参数是提前设置的,不会在训练中改变,称为超参数。调整超参数的过程称为调参。
参考文献
[1] 《动手学深度学习》 — 动手学深度学习 2.0.0 documentation[EB/OL]. [2024-12-21]. https://zh.d2l.ai/.