Notes on Section 8.2

Title: Notes on Section 8.2
Author: bobown_yao
Created at: 2026-02-06 00:00:00
Updated at: 2026-03-08 19:46:44
Link: https://bobownyao.github.io/2026/02/06/Notes-on-Section-8-2/
License: All Rights Reserved &#169; bobown_yao

序列数据处理问题中比较重要的一个部分是对序列化文本的处理

对于一个文本数据，我们可以对其进行词源化拆分或者是字符化拆分

我们先加载一个文本

return [re.sub(‘[^A-Za-z]+’, ‘ ‘, line).strip().lower() for line in lines]

注意到这一行，这一行进行的操作包括去除所有的标点符号，前后空白字符，全文本小写化

我们设置两种拆分token的模式，分别是按词汇（每行使用split）或者是按字符（每行list化）

接下来一步是对单词进行量化，做法是将一个单词映射到一个数字索引。这个索引在训练的时候使用，在模型测试或者是正式跑的时候也是一个映射库。这个库由一般单词和特殊词元组成，几个特殊词元分别是未知词元unknown 填充（凑输入长度的）padding 开始符beginning of the sequence 结束符