1 分类问题

一个样本有四个特征$x_1,x_2,x_3,x_4$,存在三个类别$\{1,2,3\}$。

采用独热编码的形式表示标签:$y\in \{(1,0,0),(0,1,0),(0,0,1)\}$.

为了估计所有类别的概率,需要多个输出。

向量化表示:

神经网络结构如下:

softmaxreg

问题在于目前的$\mathbf{o}$未经规范化,其不满足概率基本公理。

2 softmax函数

softmax函数,通过求幂来保证预测非负,然后归一化处理。

不难发现softmax并不改变概率的大小顺序,仅是让结果符合正确的概率分布。

3 损失函数

对模型在训练集上的表现进行评估,可以用下面的公式进行表示,即在训练集的特征前提下,获得训练集标签的概率,$P$越接近$1$说明模型在训练集上的效果越好。

根据最大似然估计,最大化$P$,相当于最小化负对数似然:

损失函数:

参考文献

[1] 《动手学深度学习》 — 动手学深度学习 2.0.0 documentation[EB/OL]. [2024-12-21]. https://zh.d2l.ai/.