语音开源项目优选:自动语音标注库VCTUBE : A Library for Automatic Speech Data Annotation

声明:语音开源项目主要分享优秀的开源项目,促进开源社区的壮大。所写的内容主要是我个人看法,如有错误,还望指正。如有转载,请标注来源。 欢迎关注微信公众号:低调奋进

VCTUBE : A Library for Automatic Speech Data Annotation

本文是自动语音标注库,主要为了自动生成语音合成系统的训练语料<audio, text>,相关的文章发表在interspeech2020,具体的文章链接

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/4004.pdf

该python库的使用方法

https://dsail-skku.github.io/VCTUBE.github.io/

1 项目简介

通常语音合成系统需要大量的训练语料<audio, text>,本文提出的python库VCTUBE是从youtube上自动下载视频和字幕,然后生成语音合成的训练语料。详细的体统结构如图1所示,该系统为三模块组成:1)audio 下载模块;2)字幕下载模块;3)音频分割模块。

2, 使用方法

How To Use VCTUBE?

Requirment for VCTUBE

  • Currently requires python >= 3.6
  • FFmpeg
  • At first you need to install VCTUBE library by pip install command

    1

    pip3 install vctube

    cs

    Command for VCTUBE

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    from vctube import VCtube

    playlist_name = ""

    playlist_url = ""

    lang = ""   # ex) ko, en, fr, de ...

    vc = VCtube(playlist_name, playlist_url, lang)

    vc.download_audio()            #download audios from youtube

    vc.download_captions()        #download captions from youtube

    vc.audio_split()            #split audio with captions

    cs

VCTUBE Example

  • Setting for VCTUBE

1

2

3

4

5

from vctube import VCtube

playlist_url = "https://www.youtube.com/watch?v=fj5BcN6Blks"

playlist_name="TEST"

lang = "en"   #ex) ko, en, fr, de...

vc = VCtube(playlist_name, playlist_url, lang)

cs
  • Result of this process

1

2

3

vc.download_audio()

vc.download_captions()

vc.audio_split()

 

3 实验

本文给出了英文和韩语的实验,从youtube上自动获取数据然后在tacotron上进行测试。table2为合成音频的WER测试,图2为对齐情况,说明自动生成的训练语料可用。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/112790144