返回文章列表

模型原理 ·

Transformer 架构入门

从注意力机制、位置编码和编码器-解码器结构理解 Transformer 为什么适合大模型。

Transformer Attention LLM

核心问题

Transformer 的关键变化是用自注意力替代循环结构,让模型可以并行处理序列,并直接建模任意两个 token 之间的关系。

主要模块

  • Token Embedding:把离散 token 映射到连续向量空间。
  • Positional Encoding:补充序列顺序信息。
  • Multi-Head Attention:在多个子空间中学习不同关系。
  • Feed Forward Network:对每个位置进行非线性变换。
  • Residual + LayerNorm:稳定深层网络训练。

学习建议

先手推一次 scaled dot-product attention,再阅读 encoder block 和 decoder block 的区别。理解 mask 后,再看 GPT 类模型的自回归生成会顺畅很多。