Notes on Section 4.9

训练模型的数据分布和应用环境的数据分布的不同很可能导致模型完全不同的表现。

同时，我们需要考量到模型本身对环境的影响，当模型在环境中进行决策时，环境可能会跟随决策而做出相应的变化，但是由于模型和环境是不交互的，所以这导致模型运行时的偏差甚至错误。

分布偏移（distribution shift）是我们此处需要考虑的问题，也就是训练时的数据和测试/实际应用时的数据结构和特征改变的这样一个可能

当然在偏移满足一定条件的时候，我们还是可以通过模型得到合理的答案

协变量偏移

条件分布P（y | X）保持不变

我们通俗的理解一下：我们处理问题的思路是（需求要素-逻辑链-结论），但是模型并不这样理解问题，事实上，模型并不会真正的理解哪些是真正的需求要素，而是相对单纯的对比相似性，这导致那些人类处理问题时往往会忽略的内容成为了模型在环境迁移时的阻碍（比如判断红绿灯时，天气的因素导致背景的色块完全不同，这可能影响模型的判断）

标签偏移

指的就是测试集中不同结果的分布和训练的数据不同

从独立性的角度看，模型其实不会产生非常大的偏差，但是如果我们在训练模型的时候也使用失衡的样本，那么模型处理在边界处的输出就不可避免地产生偏倚（比如将模糊的照片大部分分类为猫因为在训练集中有90%的样本是猫）

概念偏移

“这听起来很奇怪——一只猫就是一只猫，不是吗？然而，其他类别会随着不同时间的用法而发生变化。”

变化的不变的 example