Notes on Section 7.6

“随着我们设计越来越深的网络，深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。”

在研究ResNet之前，有必要引入一些数学概念

函数族

我们可以理解其为一个由若干参数和变量构成，但是函数形式固定的组，所有的参数取值张成了整个函数族空间

这里f^*就是理论上存在的，对于目标函数的真实表达，下面则是我们在F即函数族的范围内可以达到的最佳近似

以下是我们的优化预期，也就是对于特定的训练集（X特征，y标签），还有理想函数f，我们在现有的函数族里，找到最逼近的那个函数表达

（argmin 是数学语言，全称是 Arguments of the Minimum，即给定条件下的最小值，这里的条件就是指X，y）

我们可以用损失函数来衡量逼近程度

先验的来说，我们认为初始的F不应该包含理想函数f，因为后者对于真实问题来说应该是一个极其复杂且具有随机性的函数。所以说我们当我们在原有框架F上升级的时候，我们首先考虑的是如何扩大其表达范围，使得其中的某些区域可以更加靠近目标理想函数。

以及我们需要考虑迭代的单调性，我们不希望背道而驰——以下的嵌套函数类可以保证区域最优解不至于变差

结合上面的探讨，我们可以知道我们在加深网络的时候需要达到的一个效果——也即网络是可以退化的，对于一个复杂网络，应该允许其可以模拟简单网络。这里面的核心就是我们需要有一些块可以被容易的训练成f（x）=x，也就是恒等映射

假设我们希望一个块模拟函数f（x），对于一个正常块，我们不做处理，则网络需要模拟的是f（x）=x，相对复杂。而对于残差网络，我们在权重层输出后加上原始数据x然后送入下一层，则权重层需要模拟的实际上是g（x）=f（x）-x这一函数，这相对简单很多，因为如果需要模拟恒等输出，我们只需要模拟g（x）=0，即所有的权重和偏置都趋于0，这比精准的拟合一个x要方便的多