概念介绍

KKRT16 算法是一种基于OT的轻量级隐私求交协议，用于在半诚实敌手存在的情况下对伪随机函数（OPRF）进行不经意的评估。在 OPRF 协议中，接收器有一个输入 $r$ ；发送方获得输出 $s$ ，接收方获得输出 $F (s, r)$ ，其中 $F$ 是伪随机函数， $s$ 是随机种子。该协议核心是构建了一个高效的OPRF协议，通过修改《Extending oblivious transfers efficiently》（IKNP03协议）《Improved OT extension for transferring short secrets》（KK13协议）的核心来进行构建，使其更接近OT，即使用1-out-of-2 OT 扩展协议计算 $m$ 个OPRF，使计算1-out-of-n的随机值的消耗相当于 $3.5 m$ 的1-out-of-2 OTs。由于其实现了大量OPRF示例且与密钥相关，所以KKRT定义了一个主要协议原语：批量相关密钥 OPRF (BaRK-OPRF)。通过BaRK-OPRF协议，可以实现隐私关键词搜索功能。

OT-based PSI

基于OT的PSI协议最早由《When private set intersection meets big data: An efficient and calable protocol》（DCW13）提出，在《Faster private set intersection based on OT extension》（PSZ14）中对其进行了优化，参考《Phasing: Private Set Intersection using Permutation-based Hashing》 §3.5 中对PSZ14的描述如下：

假设求交双方 $P_1$ 和 $P_2$ ，对应的集合分别为 $X=\{x_1,...x_{n_1}\}$ ， $Y=\{y_1,...,y_{n_2}\}$ ， $P_1$ 输出为 $\perp$ ， $P_2$ 输出为 $X\cap Y$ ，则其流程如下：

双方 $P_1$ 和 $P_2$ 分别使用哈希将各自的元素映射到哈希表 $T_1$ 和 $T_2$ 。其中哈希表中bins的个数为 $\beta = h(1+\epsilon )n_2$ ， $h$ （ $h = 2$ ）表示布谷鸟哈希中使用的哈希函数个数。具体的：
（1） $P_1$ 使用简单的哈希对其元素进行 $h$ 次散列得到哈希表 $T_1$ ，表中第一维寻址bins，第二维寻址bin中元素。
（2） $P_2$ 使用 $h$ 个哈希函数进行布谷鸟哈希。
（3） $P_1$ 使用虚拟机元素 $d_1$ 填充哈希表 $T_1$ 中的所有bins到最大大小 $max_\beta=F(n_1,\beta)$ 。
（4） $P_2$ 使用虚拟元素 $d_2$ 填充哈希表 $T_2$ 中的每个空bin。执行填充是为了隐藏映射到特定容器的元素数量，因为这会泄露相关的输入信息。
完成哈希映射后，双方使用2选1 OT为每个元素生成 $\ell {\tiny -}bit$ 随机掩码，其中 $\ell = \lambda + log_2(n_1)+log_2(n_2)$ 。具体过程如下：
（1） $P_2$ 作为接收方，它在 OT中的输入是它映射到bin的单个元素中对应位的值，设该值为 $w=T_2[i]$ ，将其切分 $t$ 个长度为 $\mu$ 的字符串，则有 $w = w [1] ∣∣...∣∣ w [t]$ ，其中 $2^\mu =N$ 。
（2） $P_1$ 在OT中的输入是两个随机 $\ell{\tiny -}bit$ 字符串（ $T_1$ ）对应位的值，设每个输入为 $v_j=T_1[i][j]$ ，同样将其切分 $t$ 个长度为 $\mu$ 的字符串，则有 $v_j=v_j[1]||...||v_j[t]$
（3）对每个bin中的 $max_\beta$ 个元素进行 $k$ 次 $\binom{N}{1} {\tiny -} OT_{max_\beta \ell }^{1}$ 交互， $P_1$ 得到输出矩阵 $M_1[i][j]=\oplus _{k=1}^{t} {m_{v_j[k]}[k][j]}$ ， $P_2$ 得到的输出矩阵为 $M_2[i][j]=\oplus _{k=1}^{t} {m_{w[k]}[k][j]}$ ，其中 $j\in [max_\beta]$ 。
$P_1$ 生成一个集合 $V=\{M_1[i][j] | \forall i,j : T_1[i][j]\ne d_1\}$ ，并发送给 $P_2$ 。 $P_2$ 计算交集： $\{ T_2[i]\space | \space \exists j \space s.t. M_2[i][j]\in V \}$ 。

上述过程如下图所示：

在这里插入图片描述

IKNP03 OT扩展协议

实现半诚实模型下m个随机字符串的2选1 OT。

Oblivious Transfer （OT）允许一个发送者在多个接收者中选择并发送一个秘密消息给特定的接收者，而其他接收者无法获取到该消息的内容。1-out-of-poly OT 是对传统 OT 的扩展，允许发送者选择多个秘密消息，并将其发送给多个接收者。这意味着在 1-out-of-poly OT 中，每个接收者可以获得多个消息中的一个，而不仅仅是一个消息，其步骤如下：

接收方拥有选择比特序列 ${\large r}∈\{0,1\}^m$ ，并选择两个 $m \times k$ （其中 $\gg k$ ）的矩阵 $T$ 和 $U$ ，且假设矩阵的第 $j$ 行元素分别满足 $t_j,u_j∈\{0,1\}^k$ 的随机选择，则有：
${\large t_j\oplus u_j = r_j\cdot 1^k \stackrel{def}{=}} \left\{\begin{matrix} 1^k & if\space\space r_j=1\\ 0^k & if\space\space r_j=0 \end{matrix}\right.$
发送方随机选择字符串 $s∈\{0,1\}^k$ 。
双方按照约定执行 $k$ 次2选1字符串OT。具体的，在第 $i$ 次OT时，发送方使用选择比特 ${\large s_i}$ 获得矩阵的第 $i$ 行 $q^i \in \{t^i, u^i\}$ ，以此类推，发送方获得矩阵 $T$ 和 $U$ 。
假设发送方获得的矩阵为 $Q$ ，其 $i$ 列用 $q^i$ 表示， $j$ 行用 $q_j$ 表示，则有：
${\large q_j=t_j \oplus \left [ r_j\cdot s \right ] = \left\{\begin{matrix} t_j & if \space \space r_j=0 \\ t_j\oplus s & if \space \space r_j=1 \end{matrix}\right. \tag{1}}$
假设 $H$ 为随机预言机，则发送方可以计算得到 $H(q_j)$ 和 ${\large H(q_j\oplus s)}$ ，接收方只能计算得到 $H(t_j)$ 。根据接收方选择比特 ${\large r_j}$ ，使得 ${\large t_j}$ 要么等于 ${\large q_j}$ 要么等于 ${\large q_j\oplus s}$ 。又因为接收方不知道 ${\large s}$ ，所以接收方只能知道 $H(q_j)$ 和 $H(q_j\oplus s)$ 中的一个。因此，矩阵 $Q$ 的每行可以用来产生一个单独的2选1 OT。

该过程可以扩展到任意长度消息的传输，比如加密长字符串，然后在短字符串上使用OT发送解密密钥。

假设要加密的消息为 $m$ ，密钥为 $k$ ，加密算法为 $E(\cdot)$ ，解密算法为 $D(\cdot)$ 。则可以将消息 $m$ 分成若干个固定长度的块 $m_1, m_2, ..., m_n$ ，每个块的长度为 $k$ 。然后使用密钥 $k$ 对每个块进行加密，得到密文 $c_1, c_2, ..., c_n$ 。

接着，将每个密文视为一个短字符串，使用 IKNP03 协议进行传输。具体地，将每个密文 $c_i$ 视为一个短字符串，使用 IKNP03 协议将其发送给接收方。在发送方和接收方之间进行的是短字符串传输，因此可以使用 IKNP03 协议。

接收方接收到所有密文后，使用密钥 $k$ 对每个密文进行解密，得到原始消息 $m$ 。这样就完成了长消息的传输。

需要注意的是，在使用 IKNP03 协议进行短字符串传输时，需要保证 OT 的数量与块的数量相同。具体地，在第 $i$ 次 OT 时，发送方需要将第 $i$ 个块的两个比特作为输入，接收方需要选择其中一个比特，并获得相应的短字符串。这样就可以保证每个块都能够正确地传输。

$2^\ell$ 选1 OT扩展协议

通过IKNP03 OT扩展协议实现该扩展协议。

在上述IKNP03 OT扩展协议中，存在 $T\oplus U$ 的某行 ${\large t_j\oplus u_j}$ 要么全为0，要么全为1，在KK13中将该情况解释为重复代码，并使用其他代码替代。改进的 $2^\ell$ 选1 OT扩展协议过程如下。

与上述IKNP03 OT扩展协议不一样的是， ${\large r_i}$ 表示接收者的选择位不再是 ${\large r_i} \in \{0,1\}$ ，而是长度为 $\ell-bit$ 的字符串，则此时发送者矩阵公式（对应IKNP03 OT扩展协议矩阵公式（1））修改为：
$KaTeX parse error: No such environment: eqnarray at position 16: {\large \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ q_j=t_j\oplus …$
其中：
（1） $\cdot$ 表示按位与，公式中即对两个长度为 $k$ 的字符串进行按位与计算。
（2） $C$ 是线性纠错码，维度是 $\ell$ ，码字长度是 $k$ 。当 $C$ 是重复码时，该公式与公式（1）相等。
对每个 ${\large r^\prime} \in \{0,1\}^\ell$ ，发送者关联秘密值为 ${\large H(q_j\oplus \left [ C(r\prime )\cdot s \right ] })$ 。
与此同时，接收者可以计算出其中的一个秘密值 ${\large r_j}$ ，记为 $H(t_j)$ ，根据公式（2），则有：
${\large H(t_j)=H(q_j\oplus \left [ C(r_j)\cdot s \right ] )}$
至此，随机字符串OT扩展协议流程完成。发送方将 $H(q_j\oplus \left [ C(r )\cdot s \right ] )$ 作为密钥加密第 ${\large r^,}$ 个OT秘密，而接收者只能获得其选择的第 ${\large r_j}$ 个秘密值。

安全性证明

假设接收者除 ${\large r_j}$ 外的其他选择为 ${\large \stackrel{\thicksim}{r}}$ ，则 ${\large \stackrel{\thicksim}{r}}$ 对应的其他秘密值为 ${\large H(q_j\oplus \left [ C({\large \stackrel{\thicksim}{r}} )\cdot s \right ] })$ 。则根据公式（2）有：
$\begin{equation} \begin{split} {\large q_j}\oplus \left [ C(\stackrel{\thicksim}{r})\cdot s \right ] &= t_j\oplus \left [ C(r_j)\cdot s\right ] \oplus \left [ C(\stackrel{\thicksim}{r})\cdot s\right ] \\ &= t_j\oplus \left [ (C(r_j)\oplus C(\stackrel{\thicksim}{r}) \right)\cdot s ] \end{split} \tag{3} \end{equation}$

上述公式中的信息除了 ${\large s}$ 外其他接收者都已或者。假设线性纠错码 $C$ 的最小距离（任意两个不同码字之间的最小汉明距离）为 ${\large \kappa}$ （安全参数），则 $C(r_j)\oplus C(\stackrel{\thicksim}{r})$ 的汉明重量（指码字中非零元素的个数）为 ${\large \kappa}$ 。直观地，接收者必须猜测 ${\large s}$ 的 ${\large \kappa}$ 位才能违反安全性。所以上述 $2^\ell$ 选1 OT扩展协议是随机预言机安全和相关稳定性的（可以参考IKNP03和KK13中的证明）。通过计算，当 $k=4\kappa$ 时 $C$ 满足该特性。在实际应用中 $k$ 取值满足 $3\kappa < k < 4\kappa$ 即可。

复杂度：扩展矩阵的宽度 ${\large k}$ 等于 $C$ 中码字的长度。参数 ${\large k}$ 决定了基础OT的数量和协议的总体成本。

BaRK-OPRF 协议

BaRK-OPRF协议的全称是Batched, related-key oblivious PRF（批量、相关密钥不经意PRF），执行m次PRF计算。对于 $2^\ell$ 选1 OT扩展协议，公式（2）中的先行纠错码不需要有效解码，并且能够通过消耗 OT 矩阵的单行来实现 1-out-of-poly OT，这对于相同的安全保证仅比原始 IKNP 协议长约 3.5 倍，所以基于 $2^\ell$ 选1 OT扩展协议，KKRT16 OT扩展协议中将线性纠错码 $C$ 放宽到伪随机函数（PRF），将伪随机输出 $R (x)$ 与每个可能的输入 ${\large r}$ 进行关联，发送者可以对任意 ${\large r}$ 进行计算，但是接收者只能获取某个 ${\large r}$ 的 $R (x)$ ，在KKRT16中，使用AES作为PRF，AES加速器可以使AES计算成本降到最低。

下面介绍BaRK-OPRF协议具体流程：
0. $\mathcal{R}$ 生成 $m$ 个字符串的选择序列 $r=(r_1,...,r_m)$ ，其中 $r_i\in \{0,1\}^*$ 。 $\mathcal{S}$ 随机选择 $\leftarrow \mathcal{C}$ ，并发送给接收者，其中 $\mathcal{C}$ 是 $(\kappa,\epsilon ){\small -}PRC$ 族，输出长度 $k=k(\kappa)$ 。

$\mathcal{S}$ 随机选择 ${\large s}\leftarrow \{0,1\}^k$ ，其中 ${\large s_i}$ 表示第 $i$ 个比特。
$\mathcal{R}$ 生成 $m \times k$ 的矩阵 $T_0$ 和 $T_1$ ，生成方法为：对 $j\in [m]$ ，选择 ${\large t_{0,j}\leftarrow \{0,1\}^k}$ ，并设置 ${\large t_{1,j}=C(r_j)\oplus t_{0,j}}$ 。具体解释如下：
（1）初始化空矩阵 $T_0$ 和 $T_1$ ，它们都具有大小为 $\times k$ 的维度， $t_0^i$ ， $t_1^i$ 分别表示 $T_0$ 和 $T_1$ 的第 $i$ 列数据。
（2）对于每个 $j$ ，其中 $\in [m]$ （表示从1 到 $m$ 的范围），执行以下操作：
（a） ${\large t_{0,j}\leftarrow \{0,1\}^k}$ : 从集合 ${0,1\}^k$ 中随机选择一个向量 ${\large t_{0,j}}$ 作为 $T_0$ 的第 $j$ 列数据。
（b） ${\large t_{1,j}=C(r_j)\oplus t_{0,j}}$ ：使用函数 $C(\cdot)$ 对输入向量 $r_j$ 进行计算，并将结果与 $t_{0,j}$ 进行异或运算，得到向量 $t_{1,j}$ ，将 $t_{1,j}$ 作为 $T_1$ 的第 $j$ 列数据。
$\mathcal{S}$ 和 $\mathcal{R}$ 进行 $OT_m^k$ 交互，具体流程如下：
（1） $\mathcal{S}$ 扮演接收者，输入为 ${\large \{s_i\}_{i\in [k]}}$ 。
（2） $\mathcal{R}$ 扮演发送者，输入为 ${\large \{t_0^i,t_1^i\}_{i\in [k]}}$ 。
（1） $\mathcal{S}$ 接收到输出 ${\large \{q^i\}_{i\in [k]}}$ 。
$\mathcal{S}$ 生成 $m \times k$ 矩阵 $\mathcal{Q}$ ，其中第 ${\large i}$ 列 ${\large q^i=t_{s_i}^i}$ ；第 ${\large j}$ 行 ${\large q_j=((t_{0,j}\oplus t_{1,j})\cdot s)\oplus t_{0,j}}$ ，简化为 ${\large q_j=t_{0,j}\oplus (C(r_j)\cdot \mathcal{s})}$ 。
对 $j\in [m]$ ， $\mathcal{S}$ 输出 PRF 种子 $C,s),(j,q_j))$ 。

PRF种子 $C,s),(j,q_j))$ 是一个用于伪随机函数（PRF）的输入参数，其中包含两个部分：

$(C, s)$ ：一个由伪随机函数族 $\mathcal{C}$ 生成的密钥和一个随机数，用于生成伪随机函数。

$j,q_j)$ ：用于确定 PRF 的输入。其中 $j$ 表示输入的索引， $q_j$ 表示输入的值。
在使用 PRF 进行计算时，使用 PRF 种子作为输入，PRF 会根据输入的 $j,q_j)$ 返回一个伪随机输出。PRF 种子中的 $(C, s)$ 保证了 PRF 的安全性，而 $j,q_j)$ 用于确定 PRF 的输入，从而保证了 PRF 的正确性。

对 $j\in [m]$ ， $\mathcal{R}$ 输出 PRF 种子 $C,j,t_{0,j})$ 。

KKRT16 求交过程

首次将OPRF算法用于PSI计算的是在《Private set intersection using permutation-based hashing》中，简称PSSZ15。PSSZ15协议在上述【OT-based PSI】过程中，使用了一种基于基于排列的哈希来设计 PSI 协议的新方法，该方法能够减少映射到 bin 的项目的长度，同时确保不会发生冲突。 PSSZ15将这种方法表示为Phasing，即基于排列的哈希集（Permutation-based Hashing）交集，最终比上述【OT-based PSI】过程提高了20倍。

在 PSSZ15 中， $P_2$ 必须检索其所有的 OPRF 输出才能获取交集，KKRT16 改进了PSSZ15协议的求交过程，达到了10%的优化，其流程如下。

假设 Alice 有隐私集合 $X$ ，Bob 有隐私集合 $Y$ ，且 $∣ X ∣ = ∣ Y ∣ = n$ ， $s$ 是布谷鸟哈希的存储上限。
Bob 指定随机哈希函数 $h_1,h_2,h_3:\{0,1\}^*\rightarrow [1.2n]$ 并发送给Alice。
Bob 使用布谷鸟哈希将 $Y$ 中元素映射到 $1.2 n$ 个bins中，并跟踪每个 $z (y)$ ，如果 $\perp$ ，则 $y$ 在存储区中；反之 $y$ 在bin $h_{z(y)}(y)$ 中，并以任意序列排序存储区中的位置。Bob选择 OPRF 输入的步骤如下：
（1）处理bins：对每个 $i\in [1.2n]$ ，如果 bin # $i$ 为空，则设置 ${\large r_i}$ 为虚拟值；如果 $y$ 在 bin # $i$ 中，则设置 $r_i=y||z(y)$ 。
（2）处理存储区：对每个 $i\in[s]$ ，如果存储区为 $y$ ，则设置 ${\large r_i=y}$ ；反之 ${\large r_i}$ 为虚拟值。
Alice 和 Bob 进行 $1.2 n + s$ 次 BaRK-OPRF 实例，Bob作为接收者其输入为 ${\large (r_1, \cdots ,r_{1.n+s})}$ 。最终，Alice 获得 ${\large (k_1, \cdots ,k_{1.2n+s})}$ ；对所有 $i\in [1.2n]$ ，Bob 获得 $F(k_i,r_i)$ 。
Alice 计算：
$\begin{split} &{\large H_i=\{F(k_{h_i(x)}||i) \space | \space x\in X\}, \space for \space \space i\in \{1,2,3\}} \\ &{\large S_j=\{F(k_{1.2n+j}, x) \space | \space x\in X\}, \space for \space \space j\in \{1,...,s\}} \end{split}$
并将每个集合的排列发给Bob。
Bob 初始化空集 $\mathcal{O}$ , 对 $\in Y$ ，如果 $\perp$ 并且 $y$ 在存储区 $j$ 上，同时 $F(k_{1.2n+j},y)\in S_{j}$ ，则将 $y$ 添加到 $\mathcal{O}$ 中；如果 $\ne \perp$ 并且 $F(k_{h_{z(y)}(y)}, y||z(y)) \in H_{z(y)}$ ，则将 $y$ 添加进 $\mathcal{O}$ 中。
Bob 将 $\mathcal{O}$ 发送给 Alice，双方输出交集 $\mathcal{O}$ 。

算法性能测试

KKRT16论文中的测试环境： Intel® Xeon® CPU E5-2699 v3 2.30GHz CPU 和 256 GB RAM 的服务器上实现。在同一台计算机上运行两个客户端，但使用 Linux tc 命令模拟 LAN 和 WAN 连接。在 WAN 设置中，平均网络带宽和平均（往返）延迟分别设置为 50 MB/s 和 96 ms。在LAN设置中，网络有0.2ms的延迟。所有的实验都为每一方使用单个线程。

每方有 n 个元素的 PSI 协议的运行时间（以毫秒为单位）
BaRK-OPRF 协议在离线和在线阶段的运行时间（以毫秒为单位）
![[KKRT16-离线在线时间.jpg]]
PSI 协议的通信消耗（ MB ），每方有 n 个元素

其中 $n$ 表示双方集合大小； $s$ 表示布谷鸟哈希的最大存储空间； $k$ 表示伪随机码字长度； $v$ 表示OPRF输出大小。PSSZ协议的 $v^{\prime}=\sigma +log(3n^2)$ 。上述通信忽略了用于扩展OT的基础OT固定成本。

KKRT16 PSI算法优缺点

优点：

使用OPRF算法提高了运算效率。
这个算法应该是截止2016年，基于OT最快的算法。

缺点：

由于需要执行 $1.2 n + s$ 次 BaRK-OPRF 实例，所以KKRT16的通信复杂度仍然较高。
相较于其他OT协议，因为其将纠错码放宽到了PRF，所以存在一定的安全问题。

综合来看，KKRT PSI算法在隐私保护和可扩展性方面具有较大优势，在实际应用中需要根据具体情况进行权衡和优化。

参考文献

IKNP03：《Extending oblivious transfers efficiently》
KK13：《Improved OT extension for transferring short secrets》
KKRT-PSI：《Efficient Batched Oblivious PRF with Applications to Private Set Intersection》
隐语社区文档：PSI介绍
隐匿集合求交（private set intersection，PSI）算法：KKRT

由于本人能力有限，所述有错误和不足之处，请更正。

KKRT16 PSI算法