1119

基于tensorflow的音频分类

1.数据集的选择:

  Google AudioSet(被分成了三部分:均衡的训练集、不均衡的训练集以及评估集),它是基于有标签的 YouTube 视频片段,可以以两种格式下载:

  • 每一个视频片段都有 CSV 文件描述,包括 YouTube 视频 ID、起始时间和结束时间、以及一个或多个标签,(什么是CSV格式文件?)

  • 提取出的音频特征以 TensorFlow Record 文件的形式被存。(什么是TensorFlow Record?什么用?)

  • note:这些音频特征与YouTube-8M 模型是兼容的,也提供了 TensorFlow VGGish 模型作为特征提取器!可以进行选择!

2.训练模型:

  note:YouTube8M模型是固定的样本类别数,需要对这个部分进行修改,以将类别数作为参数传入。

    YouTube-8M 能够处理两种类型的数据:总体特征帧特征。Google AudioSet 能够将我们之前提到的数据作为特征(feature),同时这种特征是以帧的格式给出的。

    (1)YouTube-8M 模型完整列表(https://github.com/google/youtube-8m#overview-of-models

    (2)note:训练数据是帧格式的,所以必须使用帧级别的模型。

    note:Please also verify that you have Python 2.7+ and Tensorflow 1.0.0 or higher installed.

    

  

猜你喜欢

转载自www.cnblogs.com/ChenKe-cheng/p/9985564.html