Notes on Section 5.3

bobown_yao

对于MXNET/ TENSORFLOW 两个框架来说,其稠密层(Dense,等效于线性层)的初始化是不必须包括输入结构的,也就是说只需要规定该层的输出形状,而模型会自动在参数进入后补充所需要的权重和输入结构信息

Image: image_001

(以上是一个还没有填入权重的网络框架)

提供输入参数前

Image: image_002

提供输入参数后

Image: image_003

这个过程称为延后初始化

延后初始化有利于自动匹配层之间的结构,可以简化架构时的考量,特别是特殊类型层向稠密层的过渡

另外PyTorch也有差不多的nn.LazyLinear(),效果类似

  • Title: Notes on Section 5.3
  • Author: bobown_yao
  • Created at : 2026-01-05 00:00:00
  • Updated at : 2026-01-17 16:19:05
  • Link: https://bobownyao.github.io/2026/01/05/Notes-on-Section-5-3/
  • License: All Rights Reserved © bobown_yao
On this page
Notes on Section 5.3