Waymo OA 面试题解析：Implement a Single-Head Self-Attention Layer

Telegram: https://t.me/csoahelp
Whatsapp: +1 818 923 6994
Email: csonsitehelp@gmail.com

31次阅读

Implement a single-head self-attention layer.

这道题要求实现一个单头自注意力层的前向计算流程：给定输入向量序列，先通过线性变换得到 Query、Key、Value，再计算每个位置与其他位置之间的注意力分数，经过缩放、softmax 归一化后，对 Value 做加权求和，得到每个 token 的上下文表示。核心在于矩阵乘法、softmax 数值稳定性以及张量维度对齐，适合检验对 Transformer 基础机制的理解。