Notes on Section 4.7

bobown_yao

这一章节主要是阐述了,反向传播的计算原理,对梯度推导进行了展开陈述

“因此,在训练神经网络时,在初始化模型参数后, 我们交替使用前向传播和反向传播,利用反向传播给出的梯度来更新模型参数。 注意,反向传播重复利用前向传播中存储的中间值,以避免重复计算。 带来的影响之一是我们需要保留中间值,直到反向传播完成。 这也是训练比单纯的预测需要更多的内存(显存)的原因之一。 此外,这些中间值的大小与网络层的数量和批量的大小大致成正比。 因此,使用更大的批量来训练更深层次的网络更容易导致内存不足(out of memory)错误。”

  • Title: Notes on Section 4.7
  • Author: bobown_yao
  • Created at : 2025-12-28 00:00:00
  • Updated at : 2026-01-17 16:18:07
  • Link: https://bobownyao.github.io/2025/12/28/Notes-on-Section-4-7/
  • License: All Rights Reserved © bobown_yao
On this page
Notes on Section 4.7