Notes on Section 5.5

bobown_yao

这一部分主要讲的是读写文件,主要是对于特定的网络层或者是训练参数,我们可能需要封装或者是转移(或者只是中途存储)。这些操作提高了数据的安全性和灵活性

我们可以用save和load从内存中存入和取出tensor

Image: image_001

Image: image_002

X不一定要求是张量,也可是字符串向张量映射的字典类结构

Image: image_003

Image: image_004

接下来我们可以把这些参数传入另一个模型

Image: image_005

注意的是,当我们使用load_state_dict时,我们需要参数的结构和模型是完全一致的,甚至来说路径都是一致的(可以参考5.1中路径的一些表述)

不过我们不一定要整个的迁移数据,我们可以将模型分块,从块导出数据,再导入另一个等效块中,这使得卷积层等一些较为固定的层的数据迁移便利化

相同的参数的模型给出的结果当然是一样的,没有传入参数的模型自动初始化,给出的输出是不同的(参考下图,clone_diff没有load参数)

Image: image_006

  • Title: Notes on Section 5.5
  • Author: bobown_yao
  • Created at : 2026-01-05 00:00:00
  • Updated at : 2026-01-17 16:19:05
  • Link: https://bobownyao.github.io/2026/01/05/Notes-on-Section-5-5/
  • License: All Rights Reserved © bobown_yao
On this page
Notes on Section 5.5