1.3.1　向量的基本运算_速通深度学习数学基础-QQ阅读女频现言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3　向量的基本性质

向量可以看作一个矢量，即既有大小、又有方向的量。例如，在2维坐标系中，如图1-6所示。

图1-6

向量之间可以进行数学运算，例如对于2维向量和，加法运算为

上式的几何意义，如图1-7所示。

图1-7

向量也可以和一个常数相乘，例如

上式的几何意义相当于对向量进行k倍缩放。如果k＜0，就相当于将向量的方向取反，如图1-8所示。

图1-8

如果一个向量可以由其他向量加权求和表示，如

α1=k2α2+…+kmαm

则称α1可以由α2～αm线性表示。

在Attention模型中，模型输出其实是对输入的特征向量组α1，…，αm线性加权求和，即

只不过权重k是通过模型计算产生的。

当使用多层Attention模型时，第二层的输出qi为h1，…，hm的线性组合，即

可以发现，从效果看，qi可以直接用α1，…，αm的线性组合来表示，因此，中间层h1，…，hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换，否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。