subword modeling

motivating model pretraining from word embeddings

model pretraining three ways

pretraining of three types of architectures

Encoder (Example : BERT)

pretraining encoders

BERT模型

1. 基本流程

步骤：随机遮盖输入序列中 15% 的 (sub)word tokens，要求模型预测这些被遮盖的词。

遮盖策略（关键创新）：

概率	操作	示例（原句：`went to store`）
80%	替换为 `[MASK]`	→ `went to [MASK]`
10%	替换为随机词	→ `pizza to store`（随机替换"went"）
10%	保留原词	→ `went to store`（但仍需预测"store"）

2. 为什么这样设计？

策略	目的	解决的核心问题
80% [MASK]	强制模型学习从上下文重建被删除的信息	核心训练任务：建立双向上下文理解能力（如 `[MASK]` 的位置应预测 `"store"`）
10% 随机替换	引入噪声，防止模型过度依赖 `[MASK]` 标记	避免模型认为"被遮盖的位置才需预测"（微调时没有 `[MASK]`！）→ 提升鲁棒性
10% 保留原词	迫使模型对所有词建立高质量表示（即使未被遮盖）	防止模型"偷懒"：仅学习预测被遮盖词，而忽视未被遮盖词（如 `"to"` 也需要强表征）→ 避免表征退化

✨ 关键洞察：

预训练与微调的一致性

在微调阶段（如文本分类），模型处理的是完整无掩码的文本。若训练时只接触 [MASK]，模型会对 [MASK] 产生依赖，遇到真实文本时性能暴跌。混合策略迫使模型：

学会利用所有上下文（无论是否被掩码）

适应非对称噪声（某些词被随机替换）