Python实现基于BIC的语音对话分割(二) - 代码天地

Python实现基于BIC的语音对话分割(二)

其他 2018-10-30 17:42:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wblgers1234/article/details/77103444

1. 语音多分割点检测

在上一篇博客<Python实现基于BIC的语音对话分割(一)>中，我们介绍了基于BIC(贝叶斯信息准则)的语音分割问题，有一个假设是这段语音中只有一个分割点，即语音对应的特征服从下面的分布：

模 型 H 1 : x 1 . . . x i \sim N (μ 1, Σ 1); x i + 1 . . . x N \sim N (μ 2, Σ 2)

$模型H_1: x_1...x_i \sim \mathcal{N}(\mu_1,\Sigma_1) ; x_{i+1}...x_N \sim \mathcal{N}(\mu_2,\Sigma_2)$

但是一个分割点的检测在实际语音应用中不是很实用，因此我们提出多分割点的检测算法，基本思想如下：

初始化检测窗口 $[wStart, wEnd]$ ；
在 $[wStart, wEnd]$ 运行BIC算法检测是否有分割点；
若2中存在分割点，则移动检测窗口 $[wStart+BIC_loc, wEnd+BIC_loc]$ ，不改变检测窗口大小；若2中不存在分割点，则不移动检测窗口的位置，调整 $wEnd$ ，检测窗口变为 $[wStart, wEnd+wGrow]$ ；
重复2，3步直到 $wEnd$ 超过整个语音的结束点，停止检测过程。

可以参看下面这个形象的图来理解多分割点检测过程：

这里写图片描述

图基于BIC的多分割点检测流程

2. VAD对分割点进行筛选

在python中实现上述的多分割点检测算法，对一个四对话的语音材料进行仿真，最终的分割结果如下图所示，可以看到，语音的分割点位置基本正确，但是语音最开始的那段静音的结束点也被记录成分割点。

这里写图片描述

为了解决非法分割点的问题，我们在实现中引入VAD（Voice Activity Detection）来筛选分割点：

根据Multi segmentation处理结束的分割点进行语音分段；
对每段语音进行VAD检测，若VAD检测有语音端点，则不做处理；若VAD检测无语音端点，则剔除该分割点。那么最终的语音分割效果如下图所示：

这里写图片描述

3. 代码

Sample代码请访问如下的Github地址：
https://github.com/wblgers/py_speech_seg

欢迎使用并提出建议！

扫描二维码关注公众号，回复： 3771526 查看本文章

猜你喜欢

转载自blog.csdn.net/wblgers1234/article/details/77103444

Python实现基于BIC的语音对话分割(二)

Python实现基于BIC的语音对话分割(一)

基于nao机器人实现语音对话（智能版本）

Python学习笔记——speech库实现简单的语音对话

Python实现语音识别（基于百度语音识别）

python实现文字转语音(基于pyttsx)

基于python的opencv实现简单的颜色分割

基于ChatGPT实现对话

Python实现投影法分割图像（二）

服务机器人语音对话的实现

基于MCRA-OMLSA的语音降噪(二)：实现

语音对话机器人，百行Python代码就能轻松实现

bis和bic区别与实现

基于python语音控制大疆创新EP机器人并进行对话——第二步将录音通过百度AI识别并播放

基于阈值的7种图像分割方法以及Python实现

基于阈值的图像分割方法以及Python实现

基于树莓派的语音对话机器人

Python调用百度API实现语音识别（二）

Python语音交互的实现

python实现语音控制

图像分割：最大类间方差法、自适应阈值分割(基于python-opencv实现)

tcp拥塞算法分析二（bic）

阈值化分割（二）OTSU法-附Python实现

Python实现语音识别和语音合成

位图分割的Python实现

基于ROS的语音控制机器人（二）：上位机的实现

二、Python开发语音识别

基于python语音控制大疆创新EP机器人并进行对话——第一步学会录音

Python实现人机对话

VAD语音分割算法原理与简单实现

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)