点积（内积）

之前对点积概念比较模糊，记录下。

点积的定义

假设我们有两个向量。这里直接简单地写成了行的形式：

v = [2, 4, 6]
w = [1, 3, 5]

v . w = (2 x 1) + (4 x 3) + (6 x 5) = 2 + 12 + 30 = 44

使用矩阵乘法并把（纵列）向量当作n×1 矩阵，点积还可以写为：
$\mathtt{a}\cdot\mathtt{b}=\mathtt{a}^{\mathtt{T}}*\mathtt{b}$

以上定义方法为代数定义，表示向量a和b的点积等于a的转置矩阵和矩阵b的乘积。向量是将几何问题转化为代数问题的桥梁，向量点积的计算其实也可以使用几何方式计算。

设二维空间内有两个向量a 和b ，它们的夹角为 θ（区间为[0,π]），则内积定义为以下实数：
$\vec{a}\bullet\vec{b}=|\vec{a}||\vec{b}|\cos\theta$

$\prod_{t=1}^{|Y|}p(y_t|y_{<t},X;\theta)\quad$

每一条摘要 $y$ 的每一个token $y_t$ 都是基于在已知之前的输出序列元素 $y_{<t}$ 、输入数据X和模型参数 $\theta$ 的情况下，生成当前位置t的输出 $y_t$ 的概率，将生成每个位置的输出 $y_t$ 的条件概率连乘起来，计算出整个输出序列Y的概率

$\mathcal{L}_{\mathrm{G}}(\theta)=-\frac{1}{|Y|}\operatorname{log}p(Y|X;\theta)$

由于计算和优化乘法操作相对复杂，通常会使用对数来简化计算。对数似然是似然函数的对数，因此在之前（1）参数估计中，最大化对数似然等价于最大化似然函数。

在优化计算中，通常会将损失函数最小化。因此，负对数似然就是对数似然取负值后的结果。最大化对数似然等价于最小化负对数似然。

通过计算生成模型生成输出序列Y的概率对数，然后取负数和 $∣ Y ∣$ 输出序列 $Y$ 的长度做平均，得到生成器的损失函数。该公式可以用于二分类和多分类问题，优化目标为最小化损失函数。