Implement a single-head self-attention layer.
这道题要求实现一个单头自注意力层的前向计算流程:给定输入向量序列,先通过线性变换得到 Query、Key、Value,再计算每个位置与其他位置之间的注意力分数,经过缩放、softmax 归一化后,对 Value 做加权求和,得到每个 token 的上下文表示。核心在于矩阵乘法、softmax 数值稳定性以及张量维度对齐,适合检验对 Transformer 基础机制的理解。
正文完
Implement a single-head self-attention layer.
这道题要求实现一个单头自注意力层的前向计算流程:给定输入向量序列,先通过线性变换得到 Query、Key、Value,再计算每个位置与其他位置之间的注意力分数,经过缩放、softmax 归一化后,对 Value 做加权求和,得到每个 token 的上下文表示。核心在于矩阵乘法、softmax 数值稳定性以及张量维度对齐,适合检验对 Transformer 基础机制的理解。