NTTRU：兼容 NTT 算法的 NTRU-based KEM 方案

参考文献：

[CT65] Cooley J W, Tukey J W. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of computation, 1965, 19(90): 297-301.
[Mont85] Montgomery P L. Modular multiplication without trial division[J]. Mathematics of computation, 1985, 44(170): 519-521.
[KAK96] Koc C K, Acar T, Kaliski B S. Analyzing and comparing Montgomery multiplication algorithms[J]. IEEE micro, 1996, 16(3): 26-33.
[HPS98] Hoffstein J, Pipher J, Silverman J H. NTRU: A ring-based public key cryptosystem[C]//International algorithmic number theory symposium. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998: 267-288.
[HS00] Hoffstein J, Silverman J. Optimizations for NTRU[J]. Public-Key Cryptography and Computational Number Theory, De Gruyter Proceedings in Mathematics, 2000: 77-88.
[Ber01] Bernstein D J. Multidigit multiplication for mathematicians[J]. Advances in Applied Mathematics, 2001: 1-19.
[Dent03] Dent A W. A designer’s guide to KEMs[C]//IMA International Conference on Cryptography and Coding. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 133-151.
[SS11] Stehlé D, Steinfeld R. Making NTRU as secure as worst-case problems over ideal lattices[C]//Advances in Cryptology–EUROCRYPT 2011: 30th Annual International Conference on the Theory and Applications of Cryptographic Techniques, Tallinn, Estonia, May 15-19, 2011. Proceedings 30. Springer Berlin Heidelberg, 2011: 27-47.
[BGV12] Zvika Brakerski, Craig Gentry, and Vinod Vaikuntanathan. (leveled) fully homomorphic encryption without bootstrapping. In ITCS, pages 309–325, 2012.
[FO13] Fujisaki E, Okamoto T. Secure integration of asymmetric and symmetric encryption schemes[J]. Journal of cryptology, 2013, 26: 80-101.
[APS15] Martin R Albrecht, Rachel Player, and Sam Scott. On the concrete hardness of Learning with Errors. Journal of Mathematical Cryptology, 9(3):169–203, 2015.
[ABD16] Martin R. Albrecht, Shi Bai, and Léo Ducas. A subfield lattice attack on overstretched NTRU assumptions - cryptanalysis of some FHE and graded encoding schemes. In CRYPTO, pages 153–178, 2016.
[HHK17] Hofheinz D, Hövelmanns K, Kiltz E. A modular analysis of the Fujisaki-Okamoto transformation[C]//Theory of Cryptography Conference. Cham: Springer International Publishing, 2017: 341-371.
[ACD+18] Albrecht M R, Curtis B R, Deo A, et al. Estimate all the {LWE, NTRU} schemes![C]//Security and Cryptography for Networks: 11th International Conference, SCN 2018, Amalfi, Italy, September 5–7, 2018, Proceedings 11. Springer International Publishing, 2018: 351-367.
[Sei18] Seiler G. Faster AVX2 optimized NTT multiplication for Ring-LWE lattice cryptography[J]. Cryptology ePrint Archive, 2018.
[LS19] Lyubashevsky V, Seiler G. NTTRU: Truly Fast NTRU Using NTT[J]. IACR Transactions on Cryptographic Hardware and Embedded Systems, 2019: 180-201.
NTRU 加密方案
FFT/NTT：以 CRT 的视角
Multi-precision Montgomery
PKE 安全性的提升方式：Naor-Yung、Fischlin、Fujisaki-Okamoto

NTRU Using NTT

Background

[LS19] 给出了支持 NTT 的 NTRU 变体。他们给出了 AVX2 优化的算法实现，计算效率比 NIST-PQC 所接受的 NTRU 方案要高得多（Gen: 8X, Encap: 5X, Decap: 8X），并且也比其他的 KEM 方案明显更快。

[ACD+18] 使用 [APS15] 的 LWE estimator，评估了提交给 NIST-PQC 的所有 LWE-based、NTRU-based 的 PKE、KEM、Sign 的安全性。对于 128 比特的安全性，环的维度应当介于 700 到 800 之间。然而，radix-2 NTT 仅能处理维度是二的幂次的分圆环，这导致了安全级别的跳跃。NTRU-HRSS 采用了 701 维度的环，NTRU-Prime 采用了 761 维度的环，两者都无法兼容 NTT 算法。而基于 RLWE 的那些方案，可以采取 [BGV12] 的 Generalized LWE 假设将它划分为 3 个维度 256 的小环，从而可以使用 radix-2 NTT 算法。

NTRU-based 相较于 RLWE-based 的优势，

公钥：
- RLWE 的公钥形如 $\in R_q^2$ ，包含两个环元素
- NTRU 的公钥形如 $h=p\cdot g/f \in R_q$ ，规模更小
- 假如 RLWE 采取 XOF + seed 的策略，需要付出额外的计算开销（一般而言，XOF/SHAKE 的速度比 NTT 慢得多）
密文：
- RLWE 的密文形如 $(c_0=a\cdot r+e_0,c_1=b\cdot r+e_1+ECC(m)) \in R_q^2$ ，包含两个环元素
- NTRU 的密文形如 $\cdot r+m \in R_q$ ，规模更小
- 假如 RLWE 采取 Compress 技术，实际上密文规模甚至会略小于 NTRU 的，当然这也需要付出不菲的计算开销。不过假如需要给出 “密文是正确形式” 的 ZKP（用途：MPC、可验证加密、群签名），那么 NTRU 密文的 proof 会小得多
采样：
- RLWE 公钥中的 $\in R_q$ 需要在环 $\mathbb Z_q$ 上均匀采样，然而 radix-2 NTT 限制了 $q$ 不是二的幂次，因此需要拒绝采样保证均匀性
- NTRU 公钥中的 $\in R_q$ 的均匀性，来自于两个小多项式的商 $g / f$ ，因此对 $q$ 没有上述限制

NTRU-based 的缺点：在某些应用中（FHE、可验证加密、群签名）需要模数和噪声规模之间的 gap 足够大。但是 [ABD16] 指出，对于 “过度拉伸”（overstretched）的 NTRU 问题，子域攻击（subfield attack）相当的奏效。并且 NTRU 假设总是比 (R/M)LWE 假设更强（或者采取 [SS11] 的可证明安全变体），并且不同的安全级别下的 NTT 实现无法复用。

所以 NTRU 的参数应当仔细考虑，先要保证方案的安全性，考虑效率才有意义。

Factorization of Cyclotomic Ring

我们考虑 $m=2^k3^l,\,\, k,l\ge 1$ 的特殊分圆多项式环，维度 $n=\phi(m)=2^k3^{l-1}=m/3$ ，此时的分圆多项式形如：
$\Phi_m(x) = x^{n} - x^{n/2} + 1$
我们考虑 $X^2-X+1$ 在代数闭包上的分解 $(X-\alpha_0)\cdot(X-\alpha_1)$ ，这要求 $\alpha_0+\alpha_1=1$ 以及 $\alpha_0\alpha_1=1$ ，我们设置 $\alpha_0=\zeta_6$ ， $\alpha_1=1-\zeta_6=\zeta_6^5$ ，它们都是 $6$ 次本原单位根。

只要工作域 $\mathbb F$ 上存在 $\zeta_6$ ，那么就有如下的环同构：
$\mathbb F[x]/(\Phi_m(x)) \cong \mathbb F[x]/(x^{n/2}-\zeta_6) \times\mathbb F[x]/(x^{n/2}-\zeta_6^5)$
给定 $f(x)=\sum_i f_i x^i \in \mathbb F[x]/(\Phi_m(x))$ ，具体的映射为：
$\begin{aligned} f_0(x) &= \sum_{i=0}^{m/p-1} \left(f_{i} + \zeta_6\cdot f_{i+n/2}\right) \cdot x^i\\ f_1(x) &= \sum_{i=0}^{m/p-1} \left(f_{i} + f_{i+n/2}- \zeta_6\cdot f_{i+n/2}\right) \cdot x^i\\ \end{aligned}$
这个蝴蝶的开销是：一次数乘、两次加法、一次减法，基本上和 CT 蝴蝶（一次数乘、一次加法、一次减法）的效率一样。接下来，分别对两个小的卷积环执行 FFT/NTT 即可。

[LS19] 选取的参数：

分园整数环 $\mathbb F[X]/(X^{768}-X^{384}+1)$ ，对应的次数 $m=2^8\times3^2=2304$ ，维度 $n = m /3 = 768$
素域 $\mathbb F=\mathbb Z_{7681}$ ，对应的素数 $q=1+2^9\times 3\times 5$ ，它含有 $\zeta_{6}$ 和 $\zeta_{768} \in \{\zeta_6^{1/128}\}$
特别地 $7681=2^{13}-2^9+1$ ，导致存在高效的专用模约简算法（相比通用的 Barrett 算法还要更快一点）

因此，有以下的环同构：
$\begin{aligned} \mathbb Z_{7681}[X]/(X^{768}-X^{384}+1) &\cong \mathbb Z_{7681}[X]/(X^{384}-\zeta_6) \times Z_{7681}[X]/(X^{384}-\zeta_6^5)\\ \mathbb Z_{7681}[X]/(X^{384}-\zeta_6) &\cong \prod_{j=0}^{128} \mathbb Z_{7681}[X]/(X^{3}-\zeta_{768}^{1+j\cdot6})\\ \mathbb Z_{7681}[X]/(X^{384}-\zeta_6^5) &\cong \prod_{j=0}^{128} \mathbb Z_{7681}[X]/(X^{3}-\zeta_{768}^{5+j\cdot6})\\ \end{aligned}$
第一个同构花费 $1$ 层蝴蝶，其开销接近于 CT 蝴蝶。另外两个同构花费 $7$ 层蝴蝶，每一层的都是 CT 蝴蝶。共计 $8$ 层迭代，由于 $\mathbb Z_{7681}$ 中不存在 $\zeta_{2304}$ ，所以最终的 $\deg=3$ 的那些 Base Rings 无法继续分解。

InvNTT 可以直接复用 NTT，不过要注意 “比特串翻转” 导致的系数置换。或者采取 GS 蝴蝶，那就不必考虑这些置换，效率可能会更高一些。

OW-CPA NTRU

定义 modular binomial distribution 简记为 $\beta_k$ ，它的生成过程是：

均匀采样 $a_1,\cdots,a_k,\,\, b_1,\cdots,b_k \gets \{0,1\}$
输出 $\sum_i a_i - \sum_j b_j \pmod{^\pm3}$

[LS19] 采取了 $\beta_2$ 分布，本当 $[1, 4, 6, 4, 1]$ ，模掉 $3$ 之后，
$\Pr[-1] = \Pr[1] = \dfrac{5}{16},\,\, \Pr[0] = \dfrac{6}{16}$
如果存在 “随机性恢复”（randomness-recovering）算法 $\gets Rec(m,c,pk)$ ，使得 $c = E n c (p k, m; r)$ ，我们称这个 PKE 方案是消息可验证的（message-verifiable）

简单采用 [HPS98] [HS00] 所描述的 NTRU 方案，只不过代数结构从：卷积环 $\mathbb Z[X]/(X^N-1)$ ，其中的 $N$ 是素数（无法使用 FFT/NTT），替换为了：分圆环 $\mathbb Z[X]/(\Phi_{2304}(X))$ ，从而支持 FFT/NTT 算法。

在这里插入图片描述

我们额外要求 NTRU 方案的随机性恢复性质：这将使得 IND-CCA2 的归约更加紧致（仅用于此）。由于 $c = h r + m$ ，因此有
$\cdot h^{-1} \in R_q$
这要求公钥 $h = 3 g / f$ 也是可逆的。可逆性检查，就是要求 NTT 域的全部系数都是可逆的（非零）。因为 $h$ 是均匀的，所以 $256$ 个 $\mathbb Z_q^3$ 上系数当中存在零的概率仅为 $\Pr \le 1-256/q^3 \approx 1-2^{-30}$ ，我们完全可以在 PKE 中忽略这个检查，并不对 PKE 方案有实质影响。

Decryption Error and Message Space

OW-CPA PKE 的消息空间、随机带空间：
$M=R=\{f \in \{-1,0,1\}^{768}\} \subseteq \mathbb Z[X]/(\Phi_{2304}(X))$
它们的分布记为 $D_M, D_R$ ，解密失败率：
$\underset{(sk,pk)\gets Gen, m\gets D_M, r\gets D_R}{\Pr}[Dec(sk, Enc(pk,m;r)) \neq m] = \epsilon$
由于仅当 $f c = 3 (g r + f^{'} m) + m$ 的绝对值越过了 $q /2$ ，此时 $\mathbb Z_q$ 无法正确模拟 $\mathbb Z$ ，出现解密错误。NIST-POC 接受的 NTRU-HRSS 和 NTRU-Prime，在它们的参数设置下，没有解密错误。[LS19] 分析了 $g, r, f^{'}, m$ 全都服从 $\beta_2$ 时的解密失败率：在上述 NTTRU 的参数下，错误率为 $\epsilon \approx 2^{-1230}$

但是明文空间的规模 $M|=3^{768}$ 过于巨大。对于随机选取的 $(s k, p k)$ ，存在某消息出现解密失败的概率 $\Pr \le \epsilon \cdot|M|\approx 2^{-13}$ 相当的大，这可能会导致有效的解密失败攻击（decryption-error attacks）

[LS19] 提出一种转换方法，把消息空间约简到 $M'=\{0,1\}^{256}$ ，使得 $\epsilon \cdot|M| \ll 2^{-128}$ ，从而足够抵御上述攻击，达到 128 比特安全性。

在这里插入图片描述

代价是额外的 XOF 和 Hash 的计算，以及密文规模扩大了 $256$ 比特（对称密文 $u = E (m^{'})$ 部分）。可以证明，如果存在敌手访问 $\mu$ 次 $H_{D_M}$ 之后以优势 $\delta$ 打破 $CP A^{'}$ 的安全性，那么就存在另一个敌手以优势 $\delta-(\mu+1)/|M'|$ 打破 $CP A$ 的安全性，
$\text{ OW-CPA big }\le\text{ OW-CPA small }$

IND-CCA2 KEM

采用 [FO13] [Den02] 的标准提升技术，可以将上述的 OW-CPA PKE 方案，转化为 IND-CCA2 KEM 方案。

在这里插入图片描述

归约流程是，

将 OW-CPA “usual” scheme 归约到 OW-CPA “message-verifiable” scheme。如果存在敌手以优势 $\delta$ 打破后者，那么就存在另一个敌手以优势 $\delta$ 打破前者。这里用到了算法 $Rec(\cdot)$ 检验消息，使得归约没有损失。
将 OW-CPA “message-verifiable” scheme 归约到 IND-CCA2 KEM。如果存在敌手以优势 $\delta$ 打破后者，那么就存在另一个敌手以优势 $f(\delta)-\epsilon \cdot |M|$ 打破前者，其中的 $f$ 是线性依赖于 RO 查询次数的损失函数。

归约链：
$\text{ OW-CPA usual }\le\text{ OW-CPA message-verifiable }\le\text{ IND-CCA2 KEM}$

AVX2 optimized Implementation

NTT with Montgomery

Hensel remainder：给定模数 $\in \mathbb Z^+$ 和字大小 $\beta \in \mathbb Z^+$ ，满足 $\gcd(q,\beta)=1$ 以及 $q<\beta/2$ 。任意的整数 $\in \mathbb Z$ ，可以表示为 $a=mq+r\beta$ ，如果限制 $\in [-\beta/2, \beta/2)$ ，那么 $r$ 是唯一的。

Montgomery reduction algorithm，记为 $ab\beta^{-1}\pmod q$ ，

输入 $\in [-\beta/2,\beta/2)$
计算 $t:=a\cdot b \in \mathbb Z$ ，它需要 $O(\beta^2)$ 的存储
计算 $u:=(t+(t\cdot q' \pmod{\beta})\cdot q)/\beta$ ，其中 $q':=-q^{-1}\pmod\beta$ 是常数
输出 $\in [0,2q)$ ，它满足 $u\equiv(a\cdot b)\cdot \beta^{-1}\pmod q$

它的约简结果是无符号数。我们选取 $\beta=2^{16}$ （计算机的半精度），它大于 $q = 7681$ 的两倍，并且和它互素。同时，step 3 中的关于 $\beta$ 的取模、除法，被简化为了 AND、Shift。

AVX2 提供了半精度乘法运算符，给定两个 $16$ 比特整数 $a, b$ （半精度数），乘积是单精度数（一个字 $32$ 比特）

$ab\gg16$ ，带符号乘法的高半字，这里是算术右移（高位填充符号位，逻辑右移填充的是零）
$ab\pmod{2^{16}}$ ，（无符号/带符号）乘法的低半字（补码表示下的两者相同）

若令 $q':=q^{-1} \pmod \beta$ （约简结果是带符号的），此时 $t$ 和 $(t\cdot q' \pmod{\beta})\cdot q$ 的低半字完全相同，从而只需要计算高位的减法。注意，对于 $q':=-q^{-1} \pmod \beta$ 不可以这么优化，因为低半字的加法会导致进位，因此高半字的加和不一定正确。因此， $M o n t (a, b)$ 可以优化为：

计算 $t_1:=mulhi(a,b)$ ，原始 $t$ 的上半字
计算 $t_2:=mullo(a,b)$ ，原始 $t$ 的下半字
计算 $t_2':=mullo(t_2,q')$ ，此处得到了 $t\cdot q^{-1} \pmod{\beta}$
计算 $u:= t_1-mulhi(t_2',q)$ ，两者的上半字相减

这导致了更加稠密的 AVX2 向量化（相较于单精度存储），并且节约了一些运算。

现在我们将这个模乘算法，整合到 NTT 算法中，

由于 NTT 蝴蝶中的全部乘法，都是本原根（常数 $\zeta$ ）和系数（变量 $f$ ）的乘法，因此可以预计算如下的常数：
$\zeta'=\zeta \cdot \beta \pmod q$
那么 $Mont(f,\zeta') = f \cdot \zeta \pmod q$ ，这正是我们预期的模乘结果。
[Sei18] 给出的另一个重要的优化是，继续再预计算如下的常数：
$\zeta''=\zeta'\cdot q^{-1} \pmod \beta$
常数特化的 $Mont_{const}(f,\zeta',\zeta'')$ 算法步骤为，
1. 计算 $t_1:=mulhi(f,\zeta')$ ，半精度数
2. 计算 $t_2:=mullo(f,\zeta'')$ ，半精度数
3. 计算 $u:= t_1-mulhi(t_2,q)$ ，半精度数
利用预计算的 $\zeta',\zeta''$ ，以及 $Mont_{const}(f,\zeta',\zeta'')$ ，可以计算出正确的 NTT/InvNTT 结果。

对于蝴蝶中的模加运算，可以采取一般性的 Barrett 算法（需要一些乘法）。不过鉴于 $q = 7681$ 的稀疏比特串表示，[Seil18] 给出了专用的模约减算法（不需要乘法），

在这里插入图片描述

NTT Vectorization

对于某一层的蝴蝶（包含若干个多项式，各自分解为长度一半的小多项式），[LS19] 采取了如下的系数打包：

如果这些多项式长度是 $32$ 的倍数（上/下阙的长度是 $16$ 的倍数），那么将多项式的每连续 $16$ 个半精度系数，拉取到单个 AVX256 寄存器中
如果这些多项式长度小于等于 $16$ ，就需要利用 shuffle 指令，将多个多项式的上/下阙交错在单个 AVX256 寄存器中

由于 $m u ll o, m u l hi$ 的计算延迟是 $5$ -cycles， $a dd, s u b$ 的计算延迟是 $1$ -cycle，从而优化版本的 Montgomery 的延迟是 $11$ -cycles。为了提高利用率（乱序执行的效果不一定好），[LS19] 手动安排了 $6$ 个 AVX256 寄存器（加载了 $96$ 个半精度系数），它们的蝴蝶运算中的乘法是相互独立的，可以填满 CPU 流水线。

为了减少 Load 和 Store 操作（现代处理器的存储墙），[LS19] 采取了层融合技术：长度 $768$ 的多项式迭代 $3$ 层分解为 $8$ 个长度 $96$ 的多项式。对于每个长度 $96$ 的多项式（打包在 $6$ 个 AVX256 寄存器内），持续执行 $5$ 层 radix-2 NTT（而非只分解一层，store 结果，再 load 下一个多项式），得到 $32$ 个长度 $3$ 的最终的分解结果。然后再移动到下一个多项式。

Base Rings

现在我们考虑 Base Ring 上的运算，卷积环 $\mathbb Z_q[X]/(X^3-\zeta)$

两个元素 $f=\sum_i f_i,\,\, g=\sum_j g_j$ 的乘积 $h = f g$ ，写成矩阵形式：
$\begin{aligned} h = f \cdot g &= f\cdot g_0 + fx\cdot g_1 + fx^2\cdot g_2\\ &= \begin{bmatrix} f_0 & \zeta f_2 & \zeta f_1\\ f_1 & f_0 & \zeta f_2\\ f_2 & f_1 & f_0\\ \end{bmatrix} \cdot \begin{bmatrix} g_0\\g_1\\g_2 \end{bmatrix} = \begin{bmatrix} h_0\\h_1\\h_2 \end{bmatrix} \end{aligned}$
使用 Montgomery 算法来计算模乘，

本原根 $\zeta$ 是常数，被预计算为 $\zeta'=\zeta \cdot \beta \pmod q$ ，那么 $Mont_{const}(f, \zeta',\zeta'') = f \cdot \zeta$ 的结果是预期的
每一个系数 $f_i$ 都要和各个 $g_j$ 模乘，因此可以先计算每一个 $f_i'=f_i\cdot q' \pmod \beta$ ，在 $Mont(f_i,g_j)$ 中复用（其实就是计算 $Mont_{const}(g_j,f_i,f_i')$ ）
模乘 $Mont(f_i,g_j)$ 的结果是 $f_ig_j\cdot \beta^{-1} \pmod q$ ，而非预期的 $f_ig_j$ ，因此需要追踪记录这个因子 $\beta^{-1} \pmod q$ 的变化。在 InvNTT 结束时，和本来的因子 $1/256 \pmod q$ 合并，通过 $M o n t$ 消除它们。

而对于除法 $h = g / f$ ，需要对 Rotation Matrix 求逆：先计算伴随矩阵，然后除以行列式。易知这个逆阵（如果存在的话）也是 Rotation Matrix，

计算伴随矩阵：简单地计算第一列的余子式
$\begin{aligned} f_0' &= f_0^2 - \zeta f_1f_2\\ f_1' &= \zeta f_2^2 - f_0f_1\\ f_2' &= f_1^2 - f_0f_2 \end{aligned}$
伴随矩阵 $f^*=f_0'+f_1'X+f_2'X^2$
计算行列式的逆：简单地计算行列式，可以简化为
$f_0f_0' + \zeta(f_1f_2' + f_2f_1')$
然后计算 $d^{-1}=d^{q-2}$ ，利用快速幂算法
最后得到 $f^{-1}=d^{-1}f^*$ ，其中的所有模乘运算都采取 $M o n t (f, g)$ 和 $Mont_{const}(f,\zeta',\zeta'')$ 来计算

由于 $M o n t (f, g)$ 会引入一些因子 $(\beta^{-1})^v$ ，我们需要追踪它们，结果是：

公钥 $h = 3 g / f$ 的因子为 $\beta$
密文 $h r$ 的因子恰好为 $1$ ，于是可以直接和 $m$ 相加
解密 $f c$ 的因子为 $\beta^{-1}$ ，在 InvNTT 的结尾我们计算 $\beta\cdot(\beta\cdot256^{-1}) \pmod q)$ 消掉它们

也使用 AVX2 实现这些 Base Ring 上的运算。那么环 $\mathbb Z_{7681}[X]/(X^{768}-X^{384}+1)$ 上的多项式运算：NTT，InvNTT，小环 $\mathbb Z_{7681}[X]/(X^3-\zeta)$ 上的乘法、除法，它们的计算速度都是极快的。这导致效率瓶颈，反而是 Sample、Hash、XOF、Pack/Unpack 这些运算。

Binomial Sampling

为了快速采样 $\beta_2=(a_1+a_2)-(b_1+b_2)\pmod{^\pm3}$ ，[LS19] 采取查表的方法。构造如下的 LUT，它是长度为 $16$ 的向量：

$a_1a_2b_1b_2)_2$	$\beta_2$
$0 = 0000$	$0$
$1 = 0001$	$- 1$
$2 = 0010$	$- 1$
$3 = 0011$	$1$
…	…
$14 = 1110$	$1$
$15 = 1111$	$0$

由于 $\beta_2$ 取值 ${-1,0,1\}$ 只花费 $2$ 比特，因此上述的 LUT 可以被存储为一个字 $T$ ，采样算法就是：产生均匀的四比特 $i=(a_1a_2b_1b_2)_2$ ，然后简单的 shift，
$\beta_2[a_1,a_2,b_2,b_2] = \left(T \gg (2i)\right)[0]$
考虑到表格的对称性 $\beta_2[i]=-\beta_2[15-i]$ ，实际上 LUT 可以被存储为半个字（ $16$ 比特），从而一个 AVX256 寄存器中可以填入 $16$ 张表，以 $16$ 路并行的方式快速采样。不过 AVX2 不支持半精度整数的移位，所以还需要把 LUT 重排一下。

Symmetric Primitives

为了生成 $f, g, r$ ，我们使用 XOF 对某个 seed 做扩展，然后调用上述的 Binomial Sampler 执行各个系数的采样。但是 SHAKE 的速度很慢（相对于 NTT 而言），所以 [LS19] 选用了 CTR-mode AES 作为 XOF

在 KEM 的封装算法中，需要计算两个哈希 $\gets H_{D_R}(m)$ 和 $\gets H_{K}(m)$ ，[LS19] 使用 SHA512 合并地计算出 $512$ 比特的摘要，然后各自设置 $\in \{0,1\}^{256}$ 是它的各一半。

Vectorized Packing

由于 $\approx 2^{13}$ ，因此我们将多项式的每 $8$ 个系数（本来占据 $16$ 字节），打包到连续的 $13$ 字节，减少通信开销。这个打包过程也是极慢的，如果不进行 AVX2 优化，它甚至比 SHA3 的速度还要慢。

鉴于 AVX256 寄存器是连续读取，[LS19] 间隔 $16$ 提取 $8$ 个系数（而非连续的 $8$ 个系数），将它们打包在一起。于是可以将 $16 \times 8$ 个系数，连续读取到 $8$ 个 AVX256 寄存器中（每个寄存器加载连续的 $16$ 个系数），然后并行地打包，得到 $16$ 个长度 $13$ 字节的打包结果。