2021-1-9-HCSI组会

1. 欣陶singing voice conversion & fast svc

1.1. content and melody

这两部分不变, 改变speaker identity

  • 是否改变pitch和f0, 和普通的音色转换不同
  • 大范围的发音和pitch range
  • XXX
  • XXX没来得及记

1.2. 平行和非平行

基本base的还是encoder+对抗, 然后concat speaker embedding

  • 加强pitch部分
  • 啦啦啦数据, 和唱法编码器, straight, breathy等
  • ppg, 或者music representation, 这个能不能用在跨语言呢?他们是歌唱数据训asr
  • 停顿, 重音, 情感, 可能在residual model中. 同时结合PPG, mel是帧级别的使用, 是mel regression

1.3. mel谱和vocoder

可能不合适

1.4. baseline svc

分模块, 拼接, CNN

1.5. fast svc

1.5.1. sine excitation

sine excitation类似于平时的哼哼

去掉uv后连续(二介导)的F0的一段音频 -> sine excitation -> wav_a -> ftt频谱 -> F0, 仍能保证F0和原来一样, 即连续

去掉uv后连续(二介导)的F0的一段音频 -> 人Speech 训出的WaveNet -> wav_a -> ftt频谱 -> F0, 不能保证F0和原来一样, 即连续

f0 -> 计算出 sine excitation

意义

  • 不用频域的f0值, 用时域版本的e
  • e本身可以直接播放

1.5.2. Loudness

A-weighting, 模拟等响曲线

1.5.3. Linguistic Extractor/PPG 提取

松香师兄使用的ASR得到的向量, PPG, 新的方案

  • librispeech 预训练
  • 歌声合成任务接着用, 但是允许权重训练

1.5.4. up-sample bock/FiLM-信息瓶颈拼接

平时我们就直接信息拼接起来

  • 信息瓶颈模块拼接的好工具
  • 可能跟多尺度也有关
  • 反复使用shift和scale
  • 也给了神经网络(结合relu抑制特性)的可解释性和调控
  • 去看原论文举得: 属性信息和问题逻辑的模块的聚类分析
  • 一方面不同采样级别得到不同信息, 一方面信息瓶颈拼接

1.5.5. MOS

专业人士录完歌曲, 用什么看?听?

  • f0 sine excitation, 连贯性: speech字断, sing 不断; 两个气, 一个是喉咙a, 一个是口腔出的气b.  韵母时, a=b, 声母时, a不同, 或者说a被暂时性的阻碍没有, 用来发音; 
  • 吸气, 换气, 的气
  • 类似于f0东西, "气息"
  • loudness
  • speaker id
  • 发音, 口音
  •  

2. 如何唱歌更好听

"情感": 对应的是广泛的很多东西

2.1. 装饰音

也叫倚音, "拐音"

2.2. 语感

语感和汉语拼音的声调结合起来的

音高和拼音声调结合起来

登登等登 瞪....

一般按照乐谱, 而不是字的本身音调, 比如英文就没这个问题

那用英文唱歌迁移中国TTS

2.3. 换气

声断气不断

唤起和静默段并不一样, 如何标记?

2.4. 咬字/唱法

流行唱法

美声唱法

民族唱法

往韵母上靠;发音位置后靠; 长音时可能会将韵母逐步发生

"变厚了, 鼻音变多了, 更雄浑了"

播放器调节频率权重

2.5. 强弱

表达感情的有效方法

loudness

2.6. 其他

自然的颤音, 是人类托长音的时候, 气息变化必然产生的; 而合唱统一的时候, 刻意需要没有颤音; 并且不是周期性的颤音(很难听)

颤音如何好听; 颤音如何出现; 自然的颤音是为什么; 人们的审美颤音如何培养出来的

气息的控制

气生, 声音搭着气息

voice和unvoice的比例

源滤波器模型不够用, 加强生物的角度

气息的连续和声母的关系 z, c, s

伯努利原理

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112391108
今日推荐