格密码学: LWE\SIS for PKE\SIG\FHE

本文是ZJU Crypto School 2023中Lattice 3-4相关内容的总结。

在这一篇文章中，我们将涉及：

$\leq PKE$ ，此即，我们可以基于LWE构造公钥加密
进一步地，我们如何构造签名？FHE？怎么优化参数？

此即：构造
$\leq PKE$
$\leq SIG$
$\leq FHE$
（在后两者中，我们将使用格Trapdoor技巧）

PKE

首先，我们回顾Oded Regev的PKE构造方案（的一种构造方式）。它是很多IBE/FHE方案的基础。

$\operatorname{KeyGen}$ ：我们生成 $\in \mathbb Z_q^{n \times m}$ 。（这里需要 $A$ 是一个矮胖的矩阵，即 $n < m$ ）。 $r$ 是一个短向量，不妨认为 $\in \{0, 1\}^m$ 。计算 $u = A r$ 。
于是：

公钥 $p k = (A, u = A r)$
私钥 $s k = r$ 。

$\operatorname{Enc}_{pk}(m)$ ：我们生成均匀随机(uniformly random)的 $\leftarrow \mathbb{Z}_q^n$ ，计算
$(c_1, c_2) = (sA+e, su+e'+\frac{q}{2}m)$
其中 $e, e^{'}$ 都是噪声。则 $c_1, c_2)$ 为密文。

$\operatorname{Dec}_{sk}(c_1, c_2)$ ：计算 $\lfloor c_2 - c_1 \cdot r\rceil$ 。其中 $\lfloor ·\rceil$ 是取整。

我们考察解密正确性，即计算 $c_2 - c_1 \cdot r$ 。

$c_2 - c_1r$
$(su+e'+\frac{q}{2}m) - (sA+e)r$
$sAr+e'+\frac{q}{2}m- sAr - er$
$\frac{q}{2}m + e' - er$

其中后面的 $e^{'} + se - er$ 是小的。于是，我们只需要考察 $\frac{q}{2}m$ 是接近于0还是接近于 $\frac{q}{2}$ （在 $\mod q$ 意义下）。

在这里。我们需要知道 $r$ 是一个短向量。如果 $r$ 太大，那么无法保证解密的正确性。

PKE安全性

下面，我们考虑上述PKE方案的安全性。我们首先观察密文的形式：

$(c_1, c_2) = (sA+e, su+e'+\frac{q}{2}m)$

注意到 $c_1, c_2$ 长得都比较像LWE的sample。 $c_1$ 显然就是一个LWE。如果 $u$ 是uniformly random的向量，那么 $c_2$ 也将是一个LWE的sample。

但是 $u = A r + e$ ，从构造上来看， $u$ 其实并不是在 $\mathbb Z_q^n$ 上uniformly random的。因为 $r$ 是在 ${0, 1\}^m$ 上均匀随机的而不是在 $\mathbb Z_q^n$ 上均匀随机的。

但是 $u$ 实际上和uniformly random（在统计上）不可区分的。

为了说明这样一件事情，我们引入Leftover Hash Lemma（LHL）。

它大概是说，你如果从 ${0, 1\}$ 中均匀随机选 $r$ ，那么 $u = A r$ 的分布和均匀随机（在统计上）不可区分。

剩余哈希引理（LHL）

引理（Leftover Hash Lemma, LHL）. $\leftarrow \mathbb{Z}_q^{n \times m}$ ， $\leftarrow \{0, 1\}^m$ ， $\leftarrow \mathbb{Z}_q^n$ 。如果 $n\log q + O(\frac{1}{\log q})$ ，那么
$Ar)\approx_\epsilon (A, u)$

其中， $\approx_\epsilon$ 指统计距离的差为 $\epsilon$ 。

即， $(A, A r)$ 和 $(A, u)$ 是统计上不可区分的。

我们在这里不会去证明LHL。但是，我们提供一种理解LHL的思路：LHL本质上是一种对随机性的提取或者降维(Randomness extraction)。

假设存在一个随机源 $r$ 。这个 $r$ 均匀采样于 ${0, 1\}^m$ ，但是如果把这个 $r$ 放在 $\mathbb Z_q^m$ 下，那么它显然不是 $\mathbb Z_q^m$ 上均匀随机的。

我们计算 $A r$ 。这个 $A r$ 就是一个提取（或者压缩）随机性的过程。矮胖的矩阵 $A$ 就是提取器。

取对数底数为2，于是 $r$ 的熵是 $m\log 2$ 。如果 $u$ 是真随机的，那么 $u$ 的熵就是 $n\log q$ 。

因此，如果 $m\log 2$ 比 $n\log q$ 大一点点，那么可以认为 $r$ 中包含的随机性足够萃取成一个 $\mathbb Z^n_q$ 上的随机向量。我们就可以在计算上认为 $A r$ 就是随机的。

从这里的分析来看，引理中涉及的不等式 $n\log q + O(\frac{1}{\log q})$ 似乎是存在一些不准确的地方。

定理. 上述PKE是安全的，并且密文是伪随机的。

我们需要证明， $\operatorname{Enc}_{pk}(m))$ 和 $(p k, u ni f or m)$ 是统计不可区分的。

$\operatorname{Enc}_{pk}(m)) = (A, u = Ar, sA+e, su+e'+\frac{q}{2}m)$ ，

我们有 $p k = (A, u = A r)$ 和 $A, u_0)$ 不可区分(LHL)。这里 $u_0$ 是真·均匀随机。

于是 $\operatorname{Enc}_{pk}(m))$ 和 $u_0, sA+e, su+e'+\frac{q}{2}m)$ 不可区分。

根据LWE问题（和LHL）， $u_0, sA+e, su+e'+\frac{q}{2}m)$ 和 $u_0, u_1, u_2+\frac{q}{2}m)$ 是不可区分的。其中 $u_1, u_2$ 是真·均匀随机。

最后，由于一次性密码本， $u_0, u_1, u_2+\frac{q}{2}m)$ 和 $A, u_0, u_1, u_2)$ 是不可区分的。

PKE的另一种形式

$\operatorname{KeyGen}$ ：

$p k = (A, u)$ ，其中 $\leftarrow \mathbb Z_q^{m \times n} (m > n), u = As + e$ 。 $A$ 是一个高矩阵。
$s k = s$

$\operatorname{Enc}$ ：生成向量 $\leftarrow \{0, 1\}^m$ 。注意到 $r$ 是小的。则 $\operatorname{Enc}_{pk}(m) = (rA, ru + \frac{q}{2}m)$ 。注意到，这里我们在加密的时候没有加噪声，那么密文的形式不再是LWE。于是在分析安全性的时候，就不能用到LWE了。

$\operatorname{Dec}$ ：给定密文 $c_1, c_2)$ ，计算 $\lfloor c_2 - c_1s\rceil$ 。

（希望大家可以根据上下文分清 $m$ 作为维度和作为明文的区别。本文中这么写并不严谨，但是希望不会影阅响读）

解密的正确性： $c_2 - c_1s$
$\frac{q}{2}m - rAs$
$\frac{q}{2}m - rAs$
$\frac{q}{2}m + re$

安全性分析：我们将简述 $\approx (pk, u_0)$ 的证明思路，其中 $u_0$ 是真·均匀随机。

首先，
$A, u, c_1, c_2)$
$c_1 = rA, c_2 = ru + \frac{q}{2}m)$

于是根据DLWE，我们无法区分
$\frac{q}{2}m)$ 和 $z_1, rA, rz_2 + \frac{q}{2}m)$ 。其中 $z_i$ 是真·均匀随机。

又根据LHL，我们无法区分 $r A$ 和均匀随机向量、 $rz_2$ 和随机向量。

名词拓展：Dual Mode Encryption。我们真实的pk是 $(A, u = A s + e)$ ，但是这个pk是和 $(A, z)$ 是不可区分的。如果我们用真实的pk加密，就会得到上面的分布，用sk解密的话也能恢复明文的信息。但是如果用 $(A, z)$ 进行加密，那么你得到的结果就是均匀随机的东西。DME大概的意思是，你有可能在KeyGen时生成真实世界的pk，然后加解密过程就一切如常。但是在分析的时候，我们可以生成一个和真实世界不可区分的pk，那么在加密后，你的消息会被完完全全地掩盖。于是安全性得到了保证。

格中的陷门(Trapdoor)

陷门这个东西，可以拿来构造一些诸如签名、IBE、FHE的方案。

首先，什么是陷门？一种未经证实的类比，陷门类似于软件的后门。一个黑客直接攻破一个App难度很大。但是如果我们有软件后门，那么攻破这个App就有可能变得简单。

给定LWE/SIS问题，如果我们有了陷门，那么求解SIS/LWE问题就是简单的。如果没有陷门，那么求解SIS/LWE问题就是难的。

我们以SIS问题为例。随机选定 $A$ , 任意给定 $u$ ，我们想找一个短向量 $r$ ，使得 $A r = u$ 。这就是SIS问题。找到符合要求的 $r$ 就意味着破解了SIS。

但是，如果我们换个顺序，给定 $A, r$ ，计算 $A r = u$ ，这就是很简单的事情。

陷门的存在就支持我们做这样的更换顺序的事情。具体地，SIS陷门意味着给你一个矩阵 $T$ ，你就可以把上述SIS问题变成给定 $A, r$ ，计算 $A r = u$ 的问题。如果没有这个 $T$ ，你就做不到这个事情。

早期，GPV方案构造了一个陷门，但是构造比较复杂。

后来，MP12方案构建了一个非常漂亮的陷门：G-Trapdoor。G-Trapdoor的命名来源于构造中产生的一个特定矩阵 $G$ 。可以基于MP12方案构造很多有意思的东西。

给定矩阵 $G$ 和向量 $u$ ，我们要找小的 $r$ ，使得 $G r = u$ 。如果 $G$ 和 $u$ 是随机的，那么这个事情不容易啊。但是，如果我们非常巧合地把 $G$ 选成了单位矩阵 $I$ ，那么这个事情就有可能是非常简单的。

具体地，假如我们在格 $\mathbb Z_q^2$ 上随机采样选取格基 $(1, 0)$ 和 $(0, 1)$ ，把它捏成矩阵 $G$ （于是 $G$ 是单位矩阵），那么对于任意的向量 $u$ ，求解 $G r = u$ 的过程将变成无聊的报坐标过程。但是如果我们对 $G$ 做一个线性变换，搞出来一个随机矩阵 $A$ ，那么求解 $A z = u$ 就基本意味着解SIS了。

今天，我们假设有这样一个让整件事情变得容易的 $G$ 。如果对于选定的随机矩阵 $A$ ，存在一个矩阵 $T$ ，使得 $A T = G$ ，那么如何找到 $z$ ，使得 $A z = u$ ？

我们可以走如下的步骤：

采样 $r$ ，使得 $G r = u$
输出 $z = T r$ 。于是 $A (T r) = u$ 。

此处， $T$ 就是陷门。其实，给定随机的矩阵 $A$ ，寻找 $T$ 是很困难的。

$G$ 能做到的事情还不止这些。

给定 $(G, s G + e)$ ，找出 $s$ 和 $e$ 也是比较简单的。

我们假设这样的 $G$ 存在。那么我们是不是也可以构造一个LWE的陷门呢？

假设我们知道 $A T = G$ ，那么我们有 $s A T + e T = s G + e^{'}$ 。于是可以顺利地求解出 $s$ 和 $e$ 。在这里，我们说这个 $G$ 可以做LWE Inversion。

注意，我们对于 $T$ 有一些额外的要求：如果 $T$ 过大，那么 $e T = e^{'}$ 就是大的，可能导致解密的失败。

在前述的SIS陷门中也有同样的要求：如果 $T$ 太大， $T r$ 也不可避免地会变大（输出的 $z$ 就不是短向量了）。

下面的问题就是，能不能以及如何找到一个高品质的（小的） $T$ 。

构造方法：

首先，和经典的、不带Trapdoor的LWE一样，采样 $\leftarrow \mathbb Z_q^{n \times m}$ （A是一个矮胖的矩阵）
Trapdoor采样：采样 $(A, B)$ 。并且，如果我们把 $B$ 遮住，我们希望 $A$ 看着就像均匀随机。MP12中的构造方法如下：

构造 $A_1 \ \ A_2]$ ，其中 $A_i \in Z_q^{n \times m}, i=1,2$ 。 $A_1$ 来自均匀采样， $A_2 = A_1R+G$ ，其中 $\leftarrow \{0, 1\}^{m \times m}$ 均匀随机。

这里，我们还没说 $G$ 怎么生成，但是我们先假设存在这样的 $G$ 。

几个问题：

这里的 $A$ 为什么和Uniformly random不可区分？因为LHL。
怎么把 $A$ 转换到 $G$ ？即 $A \cdot ? = G$ ？

我们构造 $\begin{bmatrix}A_1 \ A_1R + G\end{bmatrix} \begin{bmatrix}-R \\ I\end{bmatrix} = G$ ，于是 $\begin{bmatrix}-R \\ I\end{bmatrix}$ 。这里，矩阵 $R$ 决定了 $T$ 的构造品质（范数）。
需要注意， $G$ 并不唯一。但是，存在构造 $G$ 的方法（比如下面将要介绍的构造）。

$G$ 是什么，需要满足什么性质？

给定 $G$ ， $\forall u$ ，可以找到短向量 $G r = u$ 。
当用 $G$ 作为LWE中的矩阵时，LWE问题应当是简单的。

MP12中给出了 $G$ 的构造：

选取向量 $[1\ 2\ 4\ 8\ \cdots \frac{q}{2}]$ 。于是 $\otimes I_n$ ，其中 $\otimes$ 是Kroneckor积。

有了这个向量 $g$ ，给定数字 $a$ ，我们可以求解 $r$ ，使得 $\cdot r = a$ 。（二进制分解）

同理， $G r = u$ 也可以进行计算。其中 $u$ 是向量。

上面的步骤构造了基于SIS的陷门。

这个陷门如何用于LWE问题呢？

假设 $q = 2^k$ 。我们给定如前所述的向量 $g$ ，采样LWE example： $s g + e$ 。其中， $s$ 是数字， $e$ 是向量。LWE问题的的目标是，寻找 $s$ 和 $e$ 。

我们将向量拆解。 $s g + e$ 是对这两个向量（都在 $\mod q$ 意义下）求和：
$\ s·2 \ \cdots \ s·2^{k-1} )$
$(e_0 \ e_1 \ \cdots \ e_{k-1})$

我们考虑 $s·2^{k-1}+e_{k-1}$ 。我们总是可以将 $s$ 写成 $s=2s'+s_0$ 。于是 $s·2^{k-1}+e_{k-1} = 2^ks' + 2^{k-1}·s_0 + e_{k-1}$ 。

在 $q=2^k$ 的时候，你可以把 $2^ks'$ 模掉，于是得到： $2^{k-1}s_0 + e_{k-1}$ 。通过rounding就可以从中提取到 $s_0$ 。这意味着，我们提取到了 $s$ 的最低比特位。重复这一步骤，于是我们可以求解出数字 $s$ 的每一个比特位，于是求解到整个 $s$ 。

最后，在SIS Trapdoor中，实际过程并不是输出 $z = T r$ 这么简单。它确实是输出短向量，但是这个短向量有可能泄露 $T$ 的信息。于是另一个问题是，我有一个Trapdoor，我可以找到一个短向量，但是这个短向量并不泄露 $T$ 的信息。处理的方法是给整套流程再添加一些随机项。

最后达到的目的就是，我们采样的样本只和格有关系，而和我们使用哪一组Trapdoor无关。

基于陷门的签名

有了Trapdoor以后，GPV方案基于它构造了签名：

$\operatorname{KeyGen}$ ： $(A, T)$ ——产生陷门。 $p k = A, s k = T$ 。

$\operatorname{Sign}(m)$ 。计算 $r_m$ ，使得 $\cdot r_m = H(m)$ 。其中， $H (m)$ 是 $m$ 的哈希值。注意，需要有私钥 $T$ 的参与才能完成签名。

关于验签，我们只需要验证两件事：

$r_m$ 是一个短向量；
$\cdot r_m = H(m)$ 。

定理. 在SIS问题的安全性假设以及random oracle（用于哈希）的安全性假设下，签名函数 $\operatorname{Sign}(·)$ 是安全的。

证明思路. 我们假设存在攻击者，他可以攻破这个签名函数。我们的证明目标是，存在归约，使得攻击者可以攻破SIS。

签名安全性的大致内容：一个对消息 $m$ 的签名如果是不安全的，那么意味着可以找到碰撞 $m^{'}$ ，使得对 $m, m^{'}$ 进行签名的结果是一样的。

首先，我们生成 $(A, T)$ 对，将 $A$ 公开。攻击者知道签名 $r$ ，于是知道 $H (m)$ ，但是不知道私钥 $T$ 和签名对应的明文 $m$ 。

根据定义，攻击者可以通过查询RO来获取消息对应的哈希值。这意味着，RO需要维护一张表，对于给定的输入 $x$ ，RO要能查到对应的 $r$ ，并且返回 $H (x) = A r$ 。

现在假设攻击者要伪造 $m^*, r^*$ 使得 $Ar^* = H(m^*) = H(m)$ 。

于是有 $A(r - r^*) = 0$ 。

这意味着攻击者可以攻破SIS。

全同态加密（Fully Homomorphic Encryption）

首先，看一下全同态加密的概念。

我们任意选取若干的明文 $x_1,...,x_n$ 。与此同时有一个特殊的加密方案 $(Key G e n, E n c, Dec)$ 。我们可以计算一个函数 $f(x_1,...,x_n)$ 。现在我们分别对这些明文进行加密，得到 $c_i = Enc(x_i), i=1,...,n$ 。这个特殊加密方案还支持对密文 $c_1,...,c_n$ 做一些密文的运算 $E n c E v a l (f)$ 。计算 $EncEval(f)(c_1, ..., c_n)$ 之后解密的结果，和在明文状态下计算 $f(x_1,...,x_n)$ 的结果是一样的。这就是同态加密的概念。

同态加密到目前为止经历了四代：

第一代：Gentry在2009年提出的基于ideal lattice的加密方案。
第二代：BV, BGV, BFV等方案——基于RLWE问题，支持对一个整数向量进行加密，进而支持SIMD运算。
第三代：GSW，一个非常简洁的方案。FHEW, TFHE等。
第四代：CKKS方案，支持浮点向量的运算。但是，第四代和第二代的方法没有什么本质上的差别，主要是编码消息时使用的技巧(基于Canonical Embedding)有所不同。但是这个方案因为可以对浮点数进行操作，所以在隐私保护机器学习中还是比较火的。

这一部分将基于GSW方案进行介绍。

这个方案有一个特征，就是在 $Key G e n$ 时需要对外暴露两个Key。一个是公钥 $p k$ ，一个是在做同态计算时用到的密钥 $e v k$ 。

下面，我们来看具体的实现。

$\operatorname{KeyGen}$ . 首先生成随机矩阵 $A$ ，采样私钥 $s k = s$ ，计算公钥 $\begin{bmatrix}A \\ b\end{bmatrix} = B$ ，其中 $b = s A + e$ ， $e$ 是误差。可以根据LHL证明 $p k$ 的伪随机性。

$\operatorname{Enc}$ . 对比特 $m$ 进行加密。给定比特 $\in \{0, 1\}$ ，计算 $C = BR + m G$ ，其中 $\in \{0, 1\}^{M \times M}$ 。

$\operatorname{Dec}$ . 假如我们直接计算 $(- s, 1) \cdot C = (- s, 1) BR + (- s, 1) m G = e R + (- s, 1) m G$ ，我们会发现仍然无法计算出 $m$ 。其中， $(- s, 1) \cdot B = b - s A = e$ 。

下面的问题在于如何提取 $m$ 。我们找一个向量 $r$ ，使得
$\begin{bmatrix} 0 \\ \vdots \\ 0 \\ q/2 \end{bmatrix}$

于是有： $(- s, 1) \cdot C r = (- s, 1) BR r + (- s, 1) m G r = e^{''} + m q /2$ 。只需要考察 $e^{''} + m q /2$ 更接近0还是 $q /2$ 就可以了。

下面，我们考察加法的计算。假设有 $C_1 = BR_1 + m_1G$ 和 $C_2 = BR_2 + m_2G$ 。

可以直接得到： $C_1 + C_2 = B(R_1+R_2) + (m_1+m_2)G$ 。

但是做乘法不是那么容易。假设有 $C_1 = BR_1 + m_1G$ 和 $C_2 = BR_2 + m_2G$ 。我们所希望的是，做乘法之后的密文仍然有类似于 $BR + m G$ 的密文形式。

一个直观的想法是计算 $C_1G^{-1}C_2$ 。

首先，我们可以计算矩阵 $G$ 的逆 $G^{-1}$ 。则有 $GG^{-1} = I$ 。

于是计算密文乘法的过程就类似于：

$BR_1 + m_1G)G^{-1}C_2$
$BR_1G^{-1}C_2 + m_1GG^{-1}C_2$
$BR'+m_1BR_2+m_1m_2G$
$BR' + Bm_1R_2 + m_1m_2G$
$BR'' + m_1m_2G$

于是转化成了我们想要的形式。

我们观察上述的乘法操作，可以发现：

$G^{-1}$ 大概将噪声扩大了 $\sqrt{n}$ 倍。
假如给定密文 $C_1, C_2$ ，它们的噪声界分别为 $b_1 > b_2$ ，那么你计算 $C_1C_2$ 和计算 $C_2C_1$ 的噪声界存在差别，因为乘法的先后次序不同，引入的噪声是不一样的。

在这个情况下，计算 $C_2G^{-1}C_1$ 的噪声要比 $C_1G^{-1}C_2$ 要小。

全同态加密的自举操作（Bootstrapping）

由于时间不够，课件里主要从high level讲了Bootstrapping。这里，我们建议读者参考本人的这篇博客给出的关于自举的简介。