模型原理 ·
注意力机制学习笔记
从 Query、Key、Value 的计算过程理解自注意力为什么能捕捉长距离依赖。
Attention Transformer QKV
为什么关注注意力
注意力机制是理解 Transformer 的入口。它让模型在处理一个 token 时,可以动态关注序列中的其他 token,而不是只依赖固定窗口或循环状态。
学习重点
先理解 Q、K、V 的来源,再看点积、缩放、softmax 和加权求和。多头注意力可以看成在多个表示子空间里同时学习关系。
复盘问题
阅读代码时要重点观察张量维度变化。只要能说清楚 batch、head、sequence length 和 hidden size 的变化,很多实现细节就会变得清楚。