赛博土木A-深度学习03:softmax回归
1 分类问题
一个样本有四个特征$x_1,x_2,x_3,x_4$,存在三个类别$\{1,2,3\}$。
采用独热编码的形式表示标签:$y\in \{(1,0,0),(0,1,0),(0,0,1)\}$.
为了估计所有类别的概率,需要多个输出。
向量化表示:
神经网络结构如下:
问题在于目前的$\mathbf{o}$未经规范化,其不满足概率基本公理。
2 softmax函数
softmax函数,通过求幂来保证预测非负,然后归一化处理。
不难发现softmax并不改变概率的大小顺序,仅是让结果符合正确的概率分布。
3 损失函数
对模型在训练集上的表现进行评估,可以用下面的公式进行表示,即在训练集的特征前提下,获得训练集标签的概率,$P$越接近$1$说明模型在训练集上的效果越好。
根据最大似然估计,最大化$P$,相当于最小化负对数似然:
损失函数:
参考文献
[1] 《动手学深度学习》 — 动手学深度学习 2.0.0 documentation[EB/OL]. [2024-12-21]. https://zh.d2l.ai/.
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 豈風!
评论