Binius：基于binary fields的SNARKs（Part 1）

1. 引言

前序博客有：

Ulvetanna团队Benjamin E. Diamond和Jim Posen 2023年论文《Succinct Arguments over Towers of Binary Fields》，开源代码见：

https://github.com/recmo/binius（Rust + Sage）【基于plonky3等库】【Binius：针对硬件优化的SNARK】

在该论文中：

构建了基于towers of binary fields 的高效SNARK。
基于Brakedown进行了调整，构建了适于tiny域（包括只有2个元素的域）的multilinear多项式承诺方案。
- 该承诺方案可treat small-field多项式 with zero embedding overhead。
对HyperPlonk的product和permutation check、以及Lasso的lookup，均引入了binary-field调整版本。
binary PLONKish变种，可高效用于标准哈希函数——如Keccak-256和Grøstl。

2. Binary field

Binary field的characteristic为2，形式为 $\mathbb{F}_{2^n}$ ， $n$ 为某整数。

最简单的binary field为 $\mathbb{F}_2$ ，其元素为 ${0,1\}$ ，运算为模 $2$ ：

加法运算对应bitwise XOR
乘法运算对应bitwise AND。

由于 $2^n$ 不是素数，需如下操作来将其转换为某field：

1）基于 $\mathbb{F}_2$ 的多项式，其系数为0或1，如 $p(x)=x^7+x^5+x^2+1$
2）选择基于 $\mathbb{F}_2$ 的不可约多项式 $m (x)$ ，将 $m (x)$ 的余数看成是equivalence classes。如 $m(x)=x^2+x+1$ ，其余数为degree最多为1的多项式 $r (x) = a x + b$ ，其中 $a, b$ 值为0或1。余数构成field $\mathbb{F}_{2^2}$ ，其包含4个元素： $0 + 0 x, 1 + 0 x, 0 + 1 x, 1 + 1 x$ ，可分别表示为 $00, 10, 01, 11$ 。
- 对于 $\mathbb{F}_{2^n}$ 中元素，可以长度为 $n$ 的bitstring来表示。
- 基于 $\mathbb{F}_{2^n}$ ， $2\leq n \leq 10000$ 的不可约多项式列表见：Table of Low-Weight Binary Irreducible Polynomials

多项式 $m(x)=x^3+x+1$ 也是不可约多项式，可用于构建包含8个其它元素的扩域 $\mathbb{F}_{2^3}$ 。
另一种构建 $\mathbb{F}_{2^3}$ 的方式是：就是使用extension towers。Binius采用的方式为：

DOUG WIEDEMANN的 AN ITERATED QUADRATIC EXTENSION OF GF(2)

可使用multilinear Lagrange polynomials作为tower of extensions的base。这样的优势在于：

trivially填充0系数，可将一种extension嵌入到其它extensions

具体的构建流程为：

1）以 $\tau_0=\mathbb{F}_2$ 为起点
2）设置 $\tau_1=\mathbb{F}_2[x_0]/(x_0^2+x_0+1)$
3）继续： $\tau_k=\mathbb{F}_2[x_{k-1}]/(x_{k-1}^2+x_{k-1}x_{k-2}+1)$

有： $\tau_0\sub\tau_1\sub\tau_2\sub\cdots\tau_m$ 。

直观来看其工作原理为：

扫描二维码关注公众号，回复： 17327934 查看本文章

1）显然 $\tau_0$ 为0或1。
2） $\tau_1$ 中元素有： $0+0x_0,1_0x_0,0+1x_0,1+1x_0$ ，可使用前2个，即 $00, 10$ 来标识 $\tau_0$ 中元素。
3） $\tau_2$ 中元素有： $0+0x_0+0x_1+0x_0x_1,1+0x_0+0x_1+0x_0x_1,0+1x_0+0x_1+0x_0x_1,1+1x_0+0x_1+0x_0x_1,1+0x_0+1x_1+0x_0x_1,0+1x_0+1x_1+0x_0x_1,1+1x_0+1x_1+0x_0x_1,1+1x_0+1x_1+1x_0x_1$ ，即以size为4的bitstring来表示。 $\tau_1$ 元素，可看成是 $b_0b_100$ 格式的 $\tau_2$ 元素。元素按词典顺序排序。

同时，已知 $\tau_k$ 的某元素 $b_0b_1b_2\cdots b_{2^k-1}$ ，可将其对半切分表示为 $b_{lo}+X_{k-1}b_{hi}$ ，其中 $b_{lo},b_{hi}$ 均源自 $\tau_{k-1}$ 。

加法对应为XOR，从硬件角度来看，有很多优势，其中之一就是无需考虑carry（进位）。
乘法可分解为递归方式表示，如有 $a_{lo}+x_{k}a_{hi}$ 和 $b_{lo}+x_{k}b_{hi}$ ，则乘法表示为：
$a_{hi}b_{hi}x_k^2+(a_{hi}b_{lo}+a_{lo}b_{hi})x_k+a_{lo}b_{lo}$
但由于已知 $x_k^2=x_{k-1}x_k+1$ ，因此可计算 $\tau_{k-1}$ 中元素乘积：
- 如采用相同的策略，直到 $\mathbb{F}_2$ 。
- 或者使用lookup table来获取values
- 同时有其它高效乘法计算来将某域元素，与其subfield元素相乘。如， $\tau_{k+j}$ 元素与 $\tau_k$ 元素的乘积，可以 $2^j$ 次乘法来实现。

3. 编码理论

基于字母表 $A$ 的某code of block $n$ ，为 $A^n$ 的subset，即向量中 $n$ 个元素属于 $A$ 。2个codes之间的Hamming distance，是指二者不同的元素个数。

基于域 $\mathbb{F}$ 的 $[k, n, d]$ code，为：

$\mathbb{F}^n$ 的 $k$ -维线性子空间，使得2个不用元素的distance至少为 $d$ 。

Reed-Solomon codes为其中的一种code类型。
已知某长度为 $k$ 的向量 $(a_0,a_1,\cdots,a_{k-1})$ ，其Reed-Solomon编码为：

将每个 $a_k$ 当做某degree 为 $k - 1$ 多项式的evaluation值，然后对该多项式在 $n$ 个点进行evaluate（当使用STARKs时，需使用该编码）。
若这 $n$ 个evaluation值的前 $k$ 个值与原始向量相同，则称该编码为systematic。
$\rho=k/n$ 为该编码方式的ratio，其倒数 $1/\rho=n/k$ 称为blow-up factor。
由于2个degree $k - 1$ 多项式，最多有 $k - 1$ 个重合点，因此该编码distance为 $n - k + 1$ 。
$m$ -fold interleaved code of block length，可看成是基于字母表 $A^m$ 定义的size为 $n$ 的linear code。可将该code看成是rows，行内元素在 $A^m$ 中。

已知基于域 $\mathbb{F}$ 的某 $[n, k, d]$ linear code $C$ ，其generating matrix $M$ 和基于域 $\mathbb{F}$ 的向量空间 $V$ ， $C$ 的extension code $C^{'}$ ，为 $M x$ mapping的image，其中 $x\in V^k$ 。

4. 多项式承诺方案

多项式的系数和code field size $\mathbb{F}$ 可尽可能小，但二者必须相等。通过从扩域 $\mathbb{E}$ 中来采样，可增加安全性。

Prover：

将向量 $(t_0,t_1,\cdots, t_n)$ 解析为，基于 $0,1^{\log n}$ 的Lagrange basis内的系数
将这些系数按 $m_0\times m_1$ 矩阵 $T$ 表示，对第 $row_i$ 行编码获得 $u_i$ 。矩阵 $T$ 共有 $m_0$ 行，每行长度为 $\rho^{-1}m_1$ 。
将以 $u_i$ 为行的矩阵，称为 $U$ 。
将矩阵 $U$ 中每列作为叶子节点，构建一棵Merkle tree，其root用作承诺值。

Verifier：

选择evaluation point $r=(r_0,r_1,\cdots,r_{\log(n)-1})$ 。
Prover提供 $s$ 作为多项式在 $r$ 点的evaluation值。

为生成Proof：

Prover发送vector-matrix product $R . T$ ，其中 $R$ 为 $r$ 的最后 $log(m_0)$ 个元素的tensor product。
Verifier采样 $i$ 次query（具体次数取决于安全级别），每次选中 $U$ 的一列。
Prover发送所请求的列，及其相应的authentication paths。

proof中包括：

evaluation $s$
Merkle root $roo t$
vector-matrix product $R . T$
对应 $i$ 次query的，共 $i$ 列，机器相应的authentication paths。

为check该proof：

Verifier检查该Merkle tree包含了这些列
Verifier计算 $R . T$ 的编码，并检查，根据 $R$ 从 $U$ 中选中的列的product，对应 $R . T$ 所编码的列。
使用 $R . T$ ，和 $r$ 的前 $log(m_1)$ 个元素的tensor product，Verifier检查 $s$ 是合适的evaluation值。

构建承诺方案的核心思想为：

packing。

已知具有 $m$ 个 $\tau_k$ 元素，将其分组为 $m/2^j$ 个 $\tau_{k+j}$ 元素。类似地，rows可pack进 $\tau_r$ 元素。该多项式承诺方案修改为，Verifier测试的不是单个列，而是blocks of columns。

5. 结论

本文涵盖了Binius背后的基本思想。其利用了：

采用extension towers构建的binary fields的优势，binary fields具有硬件友好性。
可拼接多个元素，并将其解析为某扩域元素
其承诺方案是基于Brakedown的，使用了Merkle trees和Reed-Solomon编码。
相比于FRI，该方案具有更大的proofs和更长的验证时间，但Prover time确大幅降低了。
- 但是，证明时间的好处通常超过了更长的验证时间。
- 此外，使用递归证明可以进一步减小proof size，或可使用final SNARK——如Groth16或Plonk，以实现提交到L1上的smaller proof。

参考资料

[1] LambdaClass 2023年12月博客 SNARKs on binary fields: Binius - Part 1