笔记摘录:2018.05.12---基础概念

仅供自己学习参考,若有侵权,请联系[email protected]

说话人语音信号产生原理:

声音散发出来后表现成一种隐形波的形式,经过波的传播,这种声音就可以被人耳发觉,这种波的振动频率的范围划分在 20Hz-100k Hz 的区间里。人类生存的大自然中包含各种各样的声音,就像我们所熟悉的刮风声、打雷声、下雨声、撞击声、鸣笛声等。而说话人发出的语音信号也属于声音的一种,归类在人的发音器官发出的、附带一定的语法和语义的声音的范畴。语音的振动频率最高可达 25kHz。喉咙部位的声带对人们发出声音的影响是很大的,它可以为语音的形成提供一种很及时的激励源:声带只要发生振动,之后就会产生声音。声带分为左右声带,而处于两声带部位的部分叫做声门。人们呼吸时,左右声带呈现打开的状态,讲话的时候,两声带则恢复到闭合的状态。当人们在说话的时候,处于合拢状态的声带由于受到了声门里的气流的冲击作用,就会由闭合的状态向张开状态进行转换。又因为声带具有很强的韧性,这一属性导致声带紧接着发生迅速闭合的现象,随后又张开接着又闭合。这种往复闭合和张开的过程使得气流形成了一系列的脉冲信号,之后再通过空气将声音传送到对方的耳朵里。每一次的张开和闭合的过程所用的时间就被称为是基音的周期,把周期取倒数就得到了基音的频率,简称基频。在人类语言学的范畴里,规定基频的范围处在 80-500Hz 之间,它是随着说话人的性别,年龄以及说话时所在的环境等条件的变化而变化,语音学统一认为女人和小孩的基频要小于男人。 在声带振动和不振动的情况下都会产生对应的语音,其中规定因为声带的振动而产生的声音叫做浊音,那些没有经过声带的振动而产生的声音就叫做清音。语音学里还规定,所有的元音和一少部分辅音都属于浊音的范畴;另外剩下的一大部分的辅音就被划分在了清音的范围里。当空气在肺部流动后就会形成一定的气流,然后气流经过声带的时候,倘若声带此时处在紧绷的状态,它就会立刻先张弛然后再振动,如此以来就形成了周期性的张开和闭合。声带开启的时候,气流就会立即从声门部位喷射出来,进而就可以形成一个脉冲;声带闭合的时候,脉冲序列处在间歇期,因而在声门的位置就会随之产生一个空气流,这种气流属于表现周期性的脉冲序列,一个个脉冲序列经过声道后再从嘴唇发射出相应的声波,穿过空气再形成声音。

不同的声音激励源就会产生不同的声音类型,就像浊音、清音和爆破音的激励源是互不相同的,浊音的形成来自处于声门处的周期性的脉冲序列;清音的形成来自位于声道区的某一个收缩区域下的空气湍流;爆破音是由位于声道的某一个闭合点处形成的气压以及这种气压的突然释放所产生的。

专业术语

       了解专业术语,是为了让产品与设计和研发更好更有效的沟通,可以有效降低沟通成本;对于专业术语所代表的知识,我们需要了解它的含义、原理、要求、局限等等,可以有效帮助我们在产品设计上做得更好;

1、信号处理,提取我们所需要的声音的过程,根据不同的行业、不同的硬件、不同的场景等等,这个过程都会有不同的表现,在语音产品里,这个阶段往往会被产品忽略,它很关键,是所有语音交互的开始,意味着,如果这个做得不好,就不用再谈什么语音体验了;

2、语音识别(ASR),现在很多人会把语音识别等同看成整个语音产品,语音识别主要指的是语音转写成文字的过程;

3、自然语言处理(NLP),语言的理解、处理、生成的全过程,这里比较被人忽略和遗忘的是“语言生成”这个过程,这是产品细节里最为繁杂的工作之一;

4、语音合成(TTS),主要是将文字合成出音频,之后播报出来;

5、对话管理(DM),主要是管理和定制语音的对话逻辑(语音交互流程),这是业内比较火的用于创建技能服务(Skill Service,或者也有叫领域服务)的平台的基础, 可以定制出自己想要的交互流程;


音素(phone,是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。 [1]  普通话,由三个音节组成,可以分析成“p, u, t, o, ng, h, u, a”八个音素。

32个汉语音素b p m f d t n l g k h j q x z c s zh ch sh r ng a o e i u ü ê 舌面元音;-i [zi] -i [zhi] er舌尖元音

英语音素:即48个音素。

首先,20元音音素,分为单元音和双元音。

12个单元音。按发音部位把单元音分为前元音:/iː/ /ɪ/ /e/ /æ/中元音/ɜː/ /ə/后元音/ɑː/ /ʌ/ /ɔː/ /ɒ//uː//ʊ/(这里采用的是RP发音音标,像一些典型美式音标未给出,如/ɝː/ /ɚ/)。元音可以根据元音高度(即舌面与上腭的距离)大小程度依次学习。如后元音:/ɑː/·/ɒ//ʌ/·/ɔː//ʊ//uː/元音高度依次由低到高。

8双元音合口双元音/aɪ/ /eɪ/ /aʊ/ /əʊ/ /ɔɪ/集中双元音/ɪə/ /eə/ /ʊə/

然后是28个辅音音素,分为清辅音和浊辅音,其中十个清辅音与十个浊辅音恰好成对。

清辅音 /p/ /t/ /k/ /f/ /s/ /θ/ /ʃ/ /tʃ/ /ts/ /tr/

浊辅音: /b/ /d/ /g/ /v/ /z/ /ð/ /ʒ/ /dʒ/ /dz/ /dr/

然后剩下的几个音标:/m//n//l//ŋ//h//r//j//w/

猜你喜欢

转载自blog.csdn.net/xh77224/article/details/82108919