2021-1-9-HCSI组会

其他 2021-01-23 03:27:05 阅读次数: 0

1. 欣陶singing voice conversion & fast svc

1.1. content and melody

这两部分不变, 改变speaker identity

是否改变pitch和f0, 和普通的音色转换不同
大范围的发音和pitch range
XXX
XXX没来得及记

1.2. 平行和非平行

基本base的还是encoder+对抗, 然后concat speaker embedding

加强pitch部分
啦啦啦数据, 和唱法编码器, straight, breathy等
ppg, 或者music representation, 这个能不能用在跨语言呢?他们是歌唱数据训asr
停顿, 重音, 情感, 可能在residual model中. 同时结合PPG, mel是帧级别的使用, 是mel regression

1.3. mel谱和vocoder

可能不合适

1.4. baseline svc

分模块, 拼接, CNN

1.5. fast svc

1.5.1. sine excitation

sine excitation类似于平时的哼哼

去掉uv后连续(二介导)的F0的一段音频 -> sine excitation -> wav_a -> ftt频谱 -> F0, 仍能保证F0和原来一样, 即连续

去掉uv后连续(二介导)的F0的一段音频 -> 人Speech 训出的WaveNet -> wav_a -> ftt频谱 -> F0, 不能保证F0和原来一样, 即连续

f0 -> 计算出 sine excitation

意义

不用频域的f0值, 用时域版本的e
e本身可以直接播放

1.5.2. Loudness

A-weighting, 模拟等响曲线

1.5.3. Linguistic Extractor/PPG 提取

松香师兄使用的ASR得到的向量, PPG, 新的方案

librispeech 预训练
歌声合成任务接着用, 但是允许权重训练

1.5.4. up-sample bock/FiLM-信息瓶颈拼接

平时我们就直接信息拼接起来

信息瓶颈模块拼接的好工具
可能跟多尺度也有关
反复使用shift和scale
也给了神经网络(结合relu抑制特性)的可解释性和调控
去看原论文举得: 属性信息和问题逻辑的模块的聚类分析
一方面不同采样级别得到不同信息, 一方面信息瓶颈拼接

1.5.5. MOS

专业人士录完歌曲, 用什么看?听?

f0 sine excitation, 连贯性: speech字断, sing 不断; 两个气, 一个是喉咙a, 一个是口腔出的气b. 韵母时, a=b, 声母时, a不同, 或者说a被暂时性的阻碍没有, 用来发音;
吸气, 换气, 的气
类似于f0东西, "气息"
loudness
speaker id
发音, 口音

2. 如何唱歌更好听

"情感": 对应的是广泛的很多东西

2.1. 装饰音

也叫倚音, "拐音"

2.2. 语感

语感和汉语拼音的声调结合起来的

音高和拼音声调结合起来

登登等登瞪....

一般按照乐谱, 而不是字的本身音调, 比如英文就没这个问题

那用英文唱歌迁移中国TTS

2.3. 换气

声断气不断

唤起和静默段并不一样, 如何标记?

2.4. 咬字/唱法

流行唱法

美声唱法

民族唱法

往韵母上靠;发音位置后靠; 长音时可能会将韵母逐步发生

"变厚了, 鼻音变多了, 更雄浑了"

播放器调节频率权重

2.5. 强弱

表达感情的有效方法

loudness

2.6. 其他

自然的颤音, 是人类托长音的时候, 气息变化必然产生的; 而合唱统一的时候, 刻意需要没有颤音; 并且不是周期性的颤音(很难听)

颤音如何好听; 颤音如何出现; 自然的颤音是为什么; 人们的审美颤音如何培养出来的

气息的控制

气生, 声音搭着气息

voice和unvoice的比例

源滤波器模型不够用, 加强生物的角度

气息的连续和声母的关系 z, c, s

伯努利原理

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112391108

2021-1-9-HCSI组会

2020-12-27-HCSI组会

D-组会1

2021-3-13组会 Overview of Voice Conversion

2021-3-6组会 Multi-Scale Emotion TTS 分享

2021-3-13组会 ASV 以及对抗样本攻击和预防分享

2021-3-6组会图神经网络在 TTS 中的应用

2021年12月27科研组会-科研绘图-Deeplabv3

上海市青少年算法2021年9月月赛（丙组）

9月2日组会，主题，老师教俺们写论文啦~~

5.26组会

组会总结

9个关键词速览两会看点 2021全国两会召开在即

日记、2021/9/30

日记2021/9/28

2021/11/9

2021-3-9

18/9/9牛客网提高组Day1

第一组：7 3 4 2 9 第二组：5 0 5 2 5 第三组：4 5 9 9 1 第四组：3 9 1 3 5 第五组：4 7 5 3 6 第六组：3 4 9 7 5 第七组：2 7 6 0 5 第八...

谷粒商城笔记(详细版) IDEA2021 高级篇1(2022/11/9)

CCNP 9 组播

P1271 【深基9.例1】选举学生会 (Java & C++)

5.17陈老师组会

日记2021/9/26在成都

牛客2021-9

bookmarks_2021_9_28

2018年9月8日提高组模拟赛 T1 最短路(path)

2018年9月22日提高组模拟赛 T1 遨游

2018年9月15日提高组模拟赛 T1 购物

2018年9月23日提高组模拟赛 T1 农夫约的假期

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)