前言

搁置好久博客，最近刷一篇经典论文，简单记录一点笔记，文章没有精读，可能略有缺漏。

一作 Hadi Abdullah，所有作者来自 University of Florida，不过根据谷歌学术的信息，一作似乎已经毕业去 VISA 了。一作的组这些年在语音安全领域有不少顶会上的工作。

直到写作时，这篇工作引用 112 次，算是语音相关的攻击工作中比较早的了。有意思的是，虽然这篇工作的目标和对抗样本很像，但是作者并没有将其列为对抗样本，而使用 Hidden Voice Attack 来指代，并且文中也没有提到对抗样本的概念。对抗样本是将一个类别A的样本进行细微扰动，使得模型将其分类为类别B，但是人类仍然会识别为A，并且难以察觉区别。本篇的目的是对于给定的语音，将其混淆使其不可理解，语音仍然会被模型识别为混淆前的类别，但是人类难以感知其内容（大量利用心理声学）。

正文

基本信息

论文来源

Abdullah, Hadi, Washington Garcia, Christian Peeters, Patrick Traynor, Kevin R. B. Butler和Joseph Wilson. 《Practical Hidden Voice Attacks against Speech and Speaker Recognition Systems》. 收入 Proceedings 2019 Network and Distributed System Security Symposium. San Diego, CA: Internet Society, 2019. https://doi.org/10.14722/ndss.2019.23362.

概述

这篇文章是对 Voice Processing Systems (VPSes) 的攻击，希望在不引起用户注意的情况下让 VPS 执行命令（本质上是对 ASR 和说话人识别的攻击）。具体来说本篇的核心贡献点在于 Practical，本篇文章在黑盒场景下攻击了 12 个模型，均能取得成功，相比于之前受限于模型和硬件的攻击来说有很大的进步。具体来说，攻击者将一条本就能达成目标的命令进行信号处理层次的混淆（修改信号但是保证提取特征不变），利用心理声学，使得人类能听到但却无法理解其内容，只以为是噪音，但对于机器依然能够被理解为混淆前的语音。再值得一提的是，本篇做到了物理世界的黑盒攻击。

demo 地址：https://sites.google.com/view/practicalhiddenvoice?pli=1

论文要点

背景

略

价值

考虑在信号处理阶段添加噪声，因为在文章发表的时候主流的 ASR 和说话人识别还是信号处理提 MFCC 这种经典的 Hand craft 特征，然后扔进神经网络或者经典分类器，至少 MFCC 这种操作还是要做的。而信号到MFCC 等特征是一个多对一的映射，基本思路就是我调整信号，不改变特征，所以机器听的没问题，但是通过心理声学层面的方法，人类就听不懂了。
第一次做出了覆盖范围很广的黑盒攻击demo，先前的攻击很多依赖于模型或者硬件。
引入心理声学，降低可理解性 intelligibility。就是利用心理声学，人对声音感知具有一些特征，利用特征对语音进行混淆。PS: 这几年四大上语音相关的工作，心理声学还是挺流行的，不管是不是核心贡献点都要拉出来溜溜。

问题陈述

图源论文，攻击目标流程。

基本思路是，已经有一个可以达成攻击目标的语音命令，但是直接播放过于鲁莽，利用信号处理一些手段混淆一下，人听不出来内容，但是对于机器，特征层面是没有改动的，所以依旧识别为原来的结果。

假设：语音的很多信息在机器处理的过程中会被过滤，我们在这些方面加入噪音，可以降低对于人类的可理解性，而不影响机器的理解。

场景：攻击者想在 VPS 上执行一条未授权的命令，为此，他朝着 VPS 的方向播放混淆后的命令。语音可以通过被控制的 IoT 设备或者攻击者的扬声器进行播放。受害者有可能在可听范围内，但他无法听出其中的命令所以不会感知到攻击。具体来说，攻击者会有一个攻击语音语料库Corpus，已经试验了具有跨模型攻击能力，然后在目标上进行试探攻击。

威胁模型 Follow 了 Carlini 的那篇对抗样本，这里直接搬英文了，可以用在写作中：

“The attacker is not located in the room, but is able to use the speaker remotely. The victim is in close vicinity of the attack speakers but is not actively listening for or expecting an attack. The victim might hear the attack audio, but is unable to decipher it, thus would not know that an attack is in progress.” (Abdullah et al., 2019, p. 5)

最后假设攻击设备距离目标设备1英尺（30.48cm）。

方法

具体的处理是四种不改变特征的扰动。

第一个是时域倒置，将一个时间窗口内的信号逆序。可以保证 spectrum 不变，而人类对于不连续的信号听起来会像是噪音。值得一提的是这个时间窗口如何选取。

第二个是随机相位生成，因为主流的信号处理算法都是只看频率谱不看相位谱的，所以修改相位谱不改变频率谱也可以保证特征不变。该处理同样会导致信号连续性损失。

第三个是高频干扰，主流的信号处理都有一个 cut-off 频率做低通滤波，一般是 8kHz（因为主流采样频率是 16kHz，通过奈奎斯特采样定理就知道最高只能支持 8 kHz，值得一提近两年的工作很多使用的数据依旧是 16kHz 采样率，虽然手机等设备基本至少普及 44.1kHz 或者 48kHz 为主流，利用较高的采样率做工作的也有一些文章，但是题目忘了hh）

第四个是时间缩放，其实就是变速播放。不同的速度对于人的理解有很大的影响。文中说 “As a result, the audio is shorter in time, but retains the same spectrum as the original.” 很难理解，变速应该会对频谱造成影响，至少是频谱搬移。

具体生成样本时，需要选择参数 audio speed, high frequency intensity, and window size (for 时域倒置 and 随机相位生成). 这里也有奇怪的点，比如 STFT 应该窗口有 overlap 的，时域倒置应该没法 overlap。~~实现细节还有很多值得商榷的地方，而且这篇也没有 open source（包括这个组 22 年的 USENIX，讲的很好，Intuition 也令人信服，就是没代码）~~ 冤枉了，这篇开源了（https://github.com/hamzayacoob/VPSesAttacks）

结果

攻击的模型

待补充，其实挺明显还是要调出来可以用的样本的，实际按照 default 的参数扰动的语音，能通过多少模型大概效果不太好。目前还没细看之后再补充。

局限性

作者自己在 Limitations 一节只是说自己不适合在 noisy 环境使用，并且表示这个环境正常应用也有困难。

The attack audio will have reduced effectiveness when used in noisy environments.

其他应该还有很多局限性，比如纯 Raw Audio 输入的语音，目前的趋势都是不用 hand craft 的特征，让模型直接输入自己学，面对这样的模型从理论上是说不过去的，但是也可能碰巧能骗过，可能需要后续工作了。

拿手机搜狗输入法的英语语音输入试了一下其中一个 demo （https://drive.google.com/file/d/1RJ5YWZ9RUBmycyjTVm4en1_jEZ3yoimd/view ，只有这个 demo 内容已知），距离5cm，没用。

扩展阅读

Zhang, Zhaohe (John), Edwin Yang, and Song Fang. “CommanderGabble: A Universal Attack Against ASR Systems Leveraging Fast Speech.” In Annual Computer Security Applications Conference, 720–31. ACSAC. New York, NY, USA: Association for Computing Machinery, 2021. CommanderGabble: A Universal Attack Against ASR Systems Leveraging Fast Speech | Annual Computer Security Applications Conference. --一篇用 Time Scaling 做攻击的文章。

启示

时间有限，暂时略

Practical Hidden Voice Attacks against Speech and Speaker Recognition Systems 阅读笔记

前言

正文

基本信息

论文来源

概述

论文要点

背景

价值

问题陈述

方法

结果

评论

局限性

扩展阅读

启示

猜你喜欢