Notes on Section 3.1

Title: Notes on Section 3.1
Author: bobown_yao
Created at: 2025-11-29 00:00:00
Updated at: 2026-01-17 16:18:07
Link: https://bobownyao.github.io/2025/11/29/Notes-on-Section-3-1/
License: All Rights Reserved &#169; bobown_yao

所以核心思想就是找到最佳权重使得偏移量最小

然后这个线性方程组的拟合是可以有解析解的

但是这个用处不是很大（当然知道如何推导这个还是比较有意义的），因为大部分拟合函数都不是线性的，参数对输出结果的影响也不一定是线性的

所以这里引入了一个随机梯度下降（gradient descent）的概念，可以在无法得到有效解析解的情况下训练模型

“梯度下降最简单的用法是计算损失函数（数据集中所有样本的损失均值）关于模型参数的导数（在这里也可以称为梯度）。但实际中的执行可能会非常慢：因为在每一次更新参数之前，我们必须遍历整个数据集。因此，我们通常会在每次需要计算更新的时候随机抽取一小批样本，这种变体叫做小批量随机梯度下降（minibatch stochastic gradient descent）。”

注意，这里的随机抽取的对象是样本，也就是说，我们有很多的训练数据，但是我们不会同一时间全部使用他们，而是在一轮训练中只抽样式的选择一些数据点。但是，对于参数来说，是的，我们会计算整体梯度并更新每一个参数。

以下是一个简要的比较