2026/01/05 · 模型原理 Transformer 架构入门 从注意力机制、位置编码和编码器-解码器结构理解 Transformer 为什么适合大模型。 Transformer Attention LLM