Notes on Section 5.3
对于MXNET/ TENSORFLOW 两个框架来说,其稠密层(Dense,等效于线性层)的初始化是不必须包括输入结构的,也就是说只需要规定该层的输出形状,而模型会自动在参数进入后补充所需要的权重和输入结构信息

(以上是一个还没有填入权重的网络框架)
提供输入参数前

提供输入参数后

这个过程称为延后初始化
延后初始化有利于自动匹配层之间的结构,可以简化架构时的考量,特别是特殊类型层向稠密层的过渡
另外PyTorch也有差不多的nn.LazyLinear(),效果类似
- Title: Notes on Section 5.3
- Author: bobown_yao
- Created at : 2026-01-05 00:00:00
- Updated at : 2026-01-17 16:19:05
- Link: https://bobownyao.github.io/2026/01/05/Notes-on-Section-5-3/
- License: All Rights Reserved © bobown_yao