1. 引言

当前，已越来越难以区分AI生成的音频与人类的声音。可能带来欺诈、身份盗用以及其它滥用问题。

在AI生成的音频可以完美模仿人声的当前环境中，需要一个可靠的信任链——从最初的音频捕获到最终的播放。这种信任链可以使用加密技术建立：经过认证的麦克风用于捕获音频，并通过ZK SNARK进行最终播放。

可使用https://github.com/ddkang/zkml来为声音编辑（如降噪、剪辑敏感信息）生成computational proof。本文将展示从音频采集，到可验证编辑的整个流程。

主要需解决2个问题：

1）如何采集音频：认证麦克风可解决可信音频采集问题。认证麦克风会对所采集的音频信号进行密码学签名。即使借助AI工具，该签名也不可伪造。
- 借助该签名，任何人都可验证该签名源自特定麦克风。为验证该音频源自特定的个人，这个人可公开其认证麦克风的公钥。
- 主要问题在于当前没有认证的麦克风，期待未来硬件厂商会生产硬件麦克风来抵抗AI生成的音频。
2）如何编辑音频：借助zk-SNARKs技术。当通过认证麦克风采集到了原始音频之后，可能需要秘密地对其进行编辑。因，情报机构可根据背景声音来定位，从而牺牲了隐私性。为保证隐私，需去掉背景造影、或者剪掉某些敏感信息。
zk-SNARKs可提供计算完整性。zk-SNARKs支持在不泄露原始音频的情况下对音频进行秘密编辑。与密码学签名类似，zk-SNARKs也不可伪造，从而可将信任链扩展到音频编辑环节。

2. 示例

在示例中：
每个人（Anna、Daniel和Kobi）都用自己的麦克风录制一个30秒的音频片段。即，有三个30秒的音频片段。

由于认证麦克风还不存在，可通过用以太坊钱包签署个人音频片段来模拟认证麦克风。这些钱包包含私钥，私钥类似于认证麦克风中的安全硬件元件。假设钱包没有被泄露，签名也是不可伪造。

在录音过程中，丹尼尔的麦克风拾取了一些背景回声，所以想把它剪下来，把片段组合成一个。借助zk-SNARKs，验证了这些编辑是从原始音频剪辑中诚实地完成的。此外，zk-SNARKs隐藏了输入音频，因此无法提取Daniel剪辑中的背景噪声！这有助于保护隐私。

在下面的演示中，最终的音频文件将与一个证明和一组签名一起呈现。验证程序对两者进行验证，确保听到的音频是对原始音频的指定操作。

总体架构为：
在这里插入图片描述
具体流程为：