作为语音相关研究领域的旗舰国际会议，INTERSPEECH2023 将于8月20-24日在爱尔兰都柏林举办。西工大音频语音与语言处理研究组（ASLP@NPU）本届会议将携合作伙伴宣读论文11篇，涉及智能语音处理领域的众多研究方向，包括语音识别、语音合成与转换、语音翻译、说话人识别等。论文的合作单位包括：腾讯、网易、华为、字节跳动、出门问问、滴滴出行、阿里巴巴等。以下是本届会议发表论文的相关信息，附带论文原文链接，与大家分享。

#1 DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding

作者列表：宁子谦，姜月鹏，朱鹏程，姚继珣，王帅，谢磊，毕梦霄

合作单位：网易

论文摘要：随着语音转换技术逐渐流行，越来越多的实时应用需要模型具有流式转换能力。与典型的（非流式）语音转换不同，流式语音转换无法利用音频中完整的上下文特征。由于未来信息的缺失，流式语音转换面临着巨大的挑战，表现在可懂度、说话人相似度和声质下降。为了应对这一挑战，我们提出了DualVC，一种双模语音转换方法，使用联合训练的独立网络参数同时支持流式和非流式模式。此外，我们引入了模型内知识蒸馏和混合预测编码（HPC），以提高流式转换的性能。此外，我们结合了数据增强来训练一个噪声鲁棒的自回归解码器，提高了该模型在长语音转换中的性能。实验结果表明，所提出的模型在流式语音转换场景下优于基线模型，同时与利用完整上下文特征的非流式系统保持相当的性能，且延迟仅有252.8毫秒。

论文网址：https://arxiv.org/abs/2305.12425

#2 PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions

作者列表：刘广厚，张雍茂，雷怡，陈云琳，王瑞，李志飞，谢磊

合作单位：出门问问

论文摘要：近年来，语音合成中的风格迁移备受关注。风格控制通常依赖于带有风格标注的表现力语音数据，然而在实际应用中，用户可能没有目标风格的语音作为参考，而是想要通过所需风格的文本描述来进行风格迁移。最近文本引导的内容生成技术受到广泛关注。本文探索了用自然语言描述进行可控风格迁移的可能性，提出了一个基于文本描述引导的跨说话人风格迁移系统PromptStyle。PromptStyle基于VITS的结构进行构建，并引入跨模态风格编码器实现风格迁移。跨模态风格编码器构建了一个声学特征和语义的共享空间。实验表明， PromptStyle在保持较高的发音稳定性和说话人相似度的同时，实现了基于文本描述引导的风格迁移。

样例见：https://PromptStyle.github.io/PromptStyle

论文网址：https://arxiv.org/abs/2305.19522

#3 VISinger 2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing Synthesizer

作者列表：张雍茂, 薛鹤洋, 李函昭, 谢磊, 郭庭炜, 张睿雄, 龚彩霞

合作单位：滴滴出行

论文摘要：端到端歌声合成（SVS）模型VISinger比典型的两阶段歌声合成系统的参数量更少，并取得了更好的性能。然而，VISinger存在几个问题：（1）文本到相位问题，建模文本到相位的无意义映射；（2）谱断裂问题，即浊音段的谐波分量发生突变，听感上有顿挫感；（3）低采样率，VISinger采用的24KHz采样率不能满足高保真（44.1KHz或更高）歌声生成的需求。为了解决这些问题，我们将数字信号处理（DSP）方法与VISinger相结合并提出了VISinger 2模型。具体而言，受可微分数字信号处理（DDSP）最新进展的启发，我们将DSP合成器纳入VISinger的解码器中以解决上述问题。DSP合成器包括一个谐波合成器和一个噪声合成器，分别根据VISinger中的中间表征z产生周期和非周期信号。在DSP合成器的监督下，后验编码器提取了没有相位信息的中间表征z，避免先验编码器建立文本到相位的映射。为了避免谱断裂问题，HiFi-GAN接受由DSP合成器产生的波形作为辅助输入来产生高保真的歌声。此外，受益于改进的波形解码器，VISinger 2能够合成44.1kHz的歌声，带来更丰富的表达和更好的音频质量。在OpenCpop歌声语料库上的实验表明，VISinger 2在主观和客观指标上都优于VISinger、CpopSing和RefineSinger。

源代码见：https://github.com/zhangyongmao/VISinger2

论文网址：https://arxiv.org/abs/2211.02903

#4 StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech Translation

作者列表：宋堃，任意，雷怡，王春峰，魏坤，谢磊，殷翔，马泽君

合作单位：字节跳动

论文摘要：端到端 (direct/end-to-end) 语音到语音翻译 (S2ST) 逐渐得到关注，因为它与级联S2ST系统相比具有诸多优势。然而，目前的研究主要集中在从源语言到目标语言语义翻译的准确性上，而忽略了源语音的音色、时长等风格信息的迁移。缺乏高保真、高表现力的平行语料数据使得实现这些风格信息的迁移具有挑战性，尤其是在实际应用场景中，往往源语音的说话人没有足量数据用于训练，因此我们需要实现零样本学习 (zero-shot) 。为了解决这个问题，我们首先使用多语种多说话人文本到语音合成 (TTS) 系统构建并行语料库，并在direct S2ST 系统框架上提出了基于风格适配器的 StyleS2ST 模型。通过并行语料库训练和非并行 TTS 数据扩充实现声学模型的连续风格空间建模，StyleS2ST 能够很好的捕获从源语言到目标语言的跨语种声学特征转换。实验表明，StyleS2ST 在集内说话人和集外的zero-shot场景中都实现了良好的风格相似度和自然度。

样例见：https://StyleS2ST.github.io/StyleS2ST

论文网址：https://arxiv.org/abs/2305.17732

#5 DCCRN-KWS: AN AUDIO BIAS BASED MODEL FOR NOISE ROBUST SMALL-FOOTPRINT KEYWORD SPOTTING

作者列表：吕术博，王雄，孙思宁，马龙，谢磊

合作单位：腾讯

论文摘要：随着关键词检出（KWS）的广泛应用，现实复杂的声学环境，尤其是低信噪比（SNR）的声学环境将给 KWS 系统带来巨大的挑战。为了提高语音质量，通常采用语音增强前端处理，然而直接使用前端处理会导致语音信号失真，影响后端任务的效果。此外，当前关键词检出对于唤醒词先验信息并没有有效利用。受到语音识别中上下文偏置的启发，本文提出了一种基于唤醒词音频上下文偏置的 DCCRN-KWS 模型来缓解复杂声学环境下关键词检出的困难。其中，基于复数神经网络的的DCCRN降噪网络的编码器和后端 KWS 模块级联，进行降噪和唤醒。之后本文进一步引入基于唤醒词音频上下文偏置模块，利用唤醒词的先验信息辅助训练。最后，本文引入了特征融合模块和复数上下文线性模块，用于进一步区分唤醒词和非唤醒。在车载测试集（叮当）上，本文提出的方案相比于基线模型，在每十小时误唤醒一次的情况下，唤醒率绝对提升 49.73%, 在开源 HI-MIA 测试集上，SNR=-5db、0db、5db 和干净的情况下，唤醒率分别绝对提升了 24.38%、34.4%、10.37% 和 5.65%。

论文网址：https://arxiv.org/abs/2305.12331

#6 Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer

作者列表：杨展恒，孙思宁，王雄，张一珂，马龙，谢磊

合作单位：腾讯

论文摘要：端到端ASR系统很难识别在训练数据中不经常出现的词，例如命名实体。为了缓解这一现象，一种广泛使用的方法是将上下文信息引入声学模型。对于这种方法，上下文单词列表是必要的，它列出了所有可能的上下文候选单词。研究证明，列表的规模和质量至关重要。紧凑而准确的列表可以显著提高性能。在本文中，我们提出了一种有效的方法来获得高质量的上下文词列表，用于基于流式/非流式结合的Conformer Transducer(C-T)模型中。具体来说，我们首先利用音素建模单元的流式输出过滤预定义的上下文单词列表。在随后的非流式推理中，过滤得到的列表作为上下文信息引入到非流式编码器和解码器中，生成最终的识别结果。我们的方法充分利用了流式识别结果，达到提高上下文ASR系统的准确性，加快推理过程的目的。在两个真实数据集上的实验表明，与基线系统相比，我们提出的方案的相对字符错误率降低20%以上。同时，当原始上下文词表的大小超过6000时，我们的方案的RTF可以稳定在0.15以内。

论文网址：https://arxiv.org/abs/2301.06735

#7 Adaptive Contextual Biasing in Transducer Based Streaming Speech Recognition

作者列表：徐天翼，杨展恒，黄凯勋，郭鹏程，张奥，李标，陈昌儒，李超，谢磊

论文摘要：深度偏置(Deep Biasing)方法能纳入额外的上下文信息，是识别个性化词汇的一种有效解决方案。然而，对于工业级应用的语音助手来说，总是偏重于这种具有高预测分数的个性化词汇会大大降低识别通用词汇的性能。为了解决这个问题，我们提出了一种基于上下文感知的Transformer Transducer模型（Context-Aware Transformer Transducer for Speech Recognition, CATT）的自适应上下文偏置方案，利用偏置编码器和预测器嵌入来对上下文短语的出现进行流式预测。而后，这种预测被用来动态地控制热词列表的开关，使该模型能够适应个性化和通用场景。在Librispeech和内部语音助手数据集上的实验表明，与基线相比，我们的方法可以分别实现6.7％和20.7％的WER/CER的相对下降，对于非热词场景，在英文和中文测试集上可以缓解96.7％和84.9％的相对WER/CER上升。此外，我们的方法尽可能地降低了在个性化场景中的性能影响，同时保持了Transducer流式推理流程。

论文网址：https://arxiv.org/abs/2306.00804

#8 Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network

作者列表：黄凯勋，张奥，杨展恒，郭鹏程，穆秉甡，徐天翼，谢磊

论文摘要：上下文信息在语音识别技术中起着至关重要的作用，将其纳入端到端语音识别模型在近期引起了广泛关注。然而，以往的深度偏置(Deep Biasing)方法在偏置任务方面缺乏明确的监督。本文为基于注意力的深度偏置方法引入了一种上下文短语预测网络，该网络利用上下文嵌入来预测话语中的上下文短语，并通过计算偏置损失来辅助深度偏置模型的训练。本文方法在各种端到端语音识别模型中实现了显著的词错误率（WER）降低。在LibriSpeech语料库上的实验证明，本文提出的模型相对于基线模型实现了12.1%的相对WER改进，上下文短语的WER相对减少了40.5%。此外，通过应用上下文短语过滤策略，我们还有效地避免了使用更大的偏置列表时WER的攀升。

论文网址：https://arxiv.org/abs/2305.12493

#9 TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition

作者列表：薛鸿飞，邵琪杰，陈培坤，郭鹏程，谢磊，刘杰

合作单位：华为

论文摘要：UniSpeech通过使用多任务自监督学习明确地将潜在表征与音素单元对齐，在跨语言自动语音识别（ASR）方面取得了优秀的性能。然而，尽管学习到的这些潜在表征可以从高资源语言迁移到低资源语言，但直接从这些音素相关表征预测单词在下游ASR中仍然具有挑战性。本文提出了TranUSR，一个由预训练的UniData2vec和一个从音素到字词的Transcoder组成的两阶段模型。首先，与UniSpeech不同，UniData2vec使用来自教师模型的连续和上下文表征代替离散的量化表征，进行音素感知的预训练，从而提高了提取跨语言特征的能力。然后，在额外的文本帮助下，Transcoder学习将音素后验概率翻译成字词，使模型能够直接生成字词。在Common Voice数据集上的实验表明，与UniSpeech相比，UniData2vec降低了5.3％的音素错误率（PER），而Transcoder相比于字素微调则获得了14.4％的相对词错误率（WER）下降。

论文网址：https://arxiv.org/abs/2305.13629

#10 BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

作者列表：梁宇颢，俞帆，李泱泽，郭鹏程，张仕良，陈谦，谢磊

合作单位：阿里巴巴

论文摘要：最近提出的序列化输出训练（SOT）通过生成由一个特殊标记分隔的不同说话人的讲话内容，简化了多说话人自动语音识别（ASR）的流程。然而频繁的说话人切换会使说话人变化预测变得困难。为了解决这个问题，我们提出了边界感知序列化输出训练（BA-SOT），它通过说话人切换检测任务和边界约束损失明确地将边界知识纳入解码器。我们还引入了一个两阶段的CTC策略，使用字符级的SOT CTC恢复时间背景信息。除了常用的字符错误率（CER），我们还引入了句子相关的字符错误率（UD-CER）来进一步衡量说话人切换预测的精度。与原始SOT相比，BA-SOT的CER/UD-CER相对降低了5.1%/14.0%，利用预训练的ASR模型对BA-SOT模型初始化，可以将CER/UD-CER进一步降低8.4%/19.9%。

论文网址：https://arxiv.org/abs/2305.13716

#11 Pseudo-Siamese Network based Timbre-reserved Black-box Adversarial Attack in Speaker Identification

作者列表：王晴，姚继珣，王子谦，郭鹏程，谢磊

论文摘要：本文提出了一种用于说话人识别（SID）的音色保留的对抗性攻击方法，不仅可以利用声纹模型的弱点，还可以在黑盒攻击条件下保留目标说话人的音色。具体来说，我们通过在语音转换模型的训练过程中添加一个对抗性约束条件来生成保留目标说话人音色的假音频。我们利用一个伪孪生网络结构从黑盒声纹模型中学习，同时约束内在相似性和结构相似性。内在相似性损失是为了学习内在的不变性，而结构相似性损失是为了确保替代的声纹模型与固定的黑盒声纹模型共享相似的决策边界。替代模型用来生成保留音色的假音频进行攻击。在Audio Deepfake Detection Challenge 2022（ADD 2022）数据集上的实验结果表明，我们提出的方法在白盒和黑盒场景下的攻击成功率分别高达60.58%和55.38%，并且可以同时欺骗人类和机器。

论文网址：http://arxiv.org/abs/2305.19020

NPU-ASLP实验室11篇论文被语音旗舰会议Interspeech2023录用