模型原理 · 2026/01/05

Transformer 架构入门

从注意力机制、位置编码和编码器-解码器结构理解 Transformer 为什么适合大模型。

Transformer Attention LLM

核心问题

Transformer 的关键变化是用自注意力替代循环结构，让模型可以并行处理序列，并直接建模任意两个 token 之间的关系。

先手推一次 scaled dot-product attention，再阅读 encoder block 和 decoder block 的区别。理解 mask 后，再看 GPT 类模型的自回归生成会顺畅很多。