Pythonでサウンドファイルを再生する方法を教え、音声のギャップに応じてサウンドを断片にカットする

現実には多くの音信号がありますが、今日の情報爆発社会では、有用な音信号を抽出することが非常に重要です。音声信号を収集するとき、必要な音声情報を抽出するために、分析のためにこの音声の各文を分離する必要がある場合があります。音の大部分を効果的にカットする方法は次のとおりです。

まず、必要なリソースライブラリパッケージをインポートする必要があります。

リソースライブラリのインポート

サウンドファイルをダウンロード:pip install soundfile
ここに画像の説明を挿入
ダウンロードの再試行:pip install retry
ここに画像の説明を挿入

音声ファイルを読み取り、音の波形を観察する

import matplotlib.pyplot as plt
import soundfile as sf

musicFileName = '8_Channel_ID.wav'
sig, sample_rate = sf.read(musicFileName)
print("采样率:%d" % sample_rate)
print("时长:", sig.shape[0]/sample_rate, '秒')

# 声音有两个通道
serviceData = sig.T[0]
clientData = sig.T[1]

plt.rcParams['figure.figsize'] = (20, 5) # 设置figure_size尺寸
plt.figure()
l=sig.shape[0]
x = [i/8000 for i in range(l)]
plt.plot(x, serviceData, c='b')
plt.show()

取得したサウンド情報:サウンド
ここに画像の説明を挿入
の波形:
ここに画像の説明を挿入

3つのパラメーターの定義

実際には、サウンドファイルを読み込んだ後、それはベクトルになります。実際には、それがベクトルの処理です。サウンド波形が変動し、各文の間に一定のギャップがあり、サウンドギャップにはまだある程度のノイズが残っていることがわかります。カットを完了するには、3つのパラメータを設定します。

  1. voiceMinValue:最小音量、この値未満はノイズと判断されます
  2. voiceMaxDistanceSecond:2つの文の間の時間間隔を増やします。この値より大きい場合は2つの文と見なされ、それ以外の場合は1つの文と見なされます
  3. voiceMinSecond:単一のオーディオの最小時間長で、この値未満はノイズと見なされます

クラスの初期値

上記の3つのパラメーター、およびオーディオファイル名とファイル出力パスは、クラスの初期値を構成します

class Voicesplit(object):
    def __init__(self, musicFileName, outFilePath):
        # 音频文件名称
        self.musicFileName = musicFileName
        # 文件输出路径
        self.outFilePath = outFilePath
        # 最小音量
        self.voiceMinValue = 0.01
        # 两句话之间最大时间间隔(秒)
        self.voiceMaxDistanceSecond = 0.1
        # 单个音频最小时间长度(秒)
        self.voiceMinSecond = 0.1

これら3つの重要なパラメータを使用してサウンドをカットする

# 分割声音,分段保存
    def splitVoiceAndSave(self):
        sig, self.sample_rate = sf.read(self.musicFileName)
        print('正在读取文件:%s' % musicFileName)
        print("采样率:%d" % self.sample_rate)
        print("时长:%s" % (sig.shape[0] / self.sample_rate), '秒')

        # 我的音频文件有两个通道,这里读取第一个通道,你需要根据你的音频文件是否是双通道,进行修改
        inputData = sig.T[0]

        dd = {
    
    }
        for k, v in tqdm(enumerate(inputData)):
            if abs(v) < self.voiceMinValue:
                dd[k] = 0
            else:
                dd[k] = v

        x = [i / self.sample_rate for i in range(len(inputData))]
        y = list(dd.values())

        # 删除空白部分
        for key in list(dd):
            if dd[key] == 0:
                dd.pop(key)

        # 判断声音间隔
        voiceSignalTime = list(dd.keys())
        list1 = []
        list2 = []
        for k, v in enumerate(voiceSignalTime[:-2]):
            list2.append(v)
            if voiceSignalTime[k + 1] - v > self.voiceMaxDistanceSecond * self.sample_rate:
                list1.append(list2)
                list2 = []

        if len(list1) == 0:
            list1.append(list2)

        if len(list1) > 0 and (
                voiceSignalTime[-1] - voiceSignalTime[-2]) < self.voiceMaxDistanceSecond * self.sample_rate:
            list1[-1].append(voiceSignalTime[-2])

        voiceTimeList = [x for x in list1 if len(x) > self.voiceMinSecond * self.sample_rate]
        print('分解出声音片段:', len(voiceTimeList))

        for voiceTime in voiceTimeList:
            voiceTime1 = int(max(0, voiceTime[0] - 0.8 * self.sample_rate))
            voiceTime2 = int(min(sig.shape[0], voiceTime[-1] + 0.8 * self.sample_rate))
            self.wavWriteByTime(musicFileName=self.musicFileName, outData=inputData, voiceTime1=voiceTime1, voiceTime2=voiceTime2)

カットしたサウンドクリップを保存する

# wav文件写入,分时间间隔
def wavWriteByTime(self, musicFileName, outData, voiceTime1, voiceTime2):
    outData = outData[voiceTime1:voiceTime2]
    fileAbsoluteName = os.path.splitext(os.path.split(musicFileName)[-1])[0]
    fileSavePath = os.path.join(self.outFilePath, fileAbsoluteName)

    if not os.path.exists(fileSavePath):
        os.makedirs(fileSavePath)

    outfile = os.path.join(fileSavePath,os.path.splitext(os.path.split(musicFileName)[-1])[0] + '_%d_%d_%s_split.wav' % (voiceTime1, voiceTime2, self.sample_rate))


    # 判断文件是否存在
    if not os.path.exists(outfile):
        print('正在生成文件:', outfile)
        with wave.open(outfile, 'wb') as outwave:  # 定义存储路径以及文件名
            nchannels = 1
            sampwidth = 2
            fs = 8000
            data_size = len(outData)
            framerate = int(fs)
            nframes = data_size
            comptype = "NONE"
            compname = "not compressed"
            outwave.setparams((nchannels, sampwidth, framerate, nframes, comptype, compname))
            for v in outData:
                outwave.writeframes(struct.pack('h', int(v * 64000 / 2)))

音のセグメンテーション結果

私のサウンドファイルの最後のサウンドセグメントは1です。特定のサウンドファイルは、独自の情報に従って取得できます。
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/ywsydwsbn/article/details/107699470