Notes on Section 4.7

bobown_yao

2025-12-28 2025-12-28 Created 2026-01-17 16:18:07 2026-01-17 16:18:07 Updated

Study

222 Words 1 Mins

这一章节主要是阐述了，反向传播的计算原理，对梯度推导进行了展开陈述

“因此，在训练神经网络时，在初始化模型参数后，我们交替使用前向传播和反向传播，利用反向传播给出的梯度来更新模型参数。注意，反向传播重复利用前向传播中存储的中间值，以避免重复计算。带来的影响之一是我们需要保留中间值，直到反向传播完成。这也是训练比单纯的预测需要更多的内存（显存）的原因之一。此外，这些中间值的大小与网络层的数量和批量的大小大致成正比。因此，使用更大的批量来训练更深层次的网络更容易导致内存不足（out of memory）错误。”

Title: Notes on Section 4.7
Author: bobown_yao
Created at : 2025-12-28 00:00:00
Updated at : 2026-01-17 16:18:07
Link: https://bobownyao.github.io/2025/12/28/Notes-on-Section-4-7/

#Study