Método de descarga del conjunto de datos de Interspeech 2020 DNS Challenge

Recientemente, quiero usar el conjunto de datos de DNS Challenge2020 (primera sesión) y descubrí que la nueva versión en github no es la versión que necesito. Los documentos oficiales también son bastante confusos, por lo que este artículo está escrito para compartir brevemente el método de descarga de 2020dataset.

Método de descarga oficial

dirección del repositorio de github:

microsoft/DNS-Challenge en interspeech2020/master (github.com)

Primero abra la línea de comando y clone el repositorio directamente:

clon de git https://github.com/microsoft/DNS-Challenge.git

cd Desafío de DNS

A continuación, instale y configure git lfs (Git Large File Storage). El conjunto de datos de la versión 2020 usa git lfs para administrar los datos, y nuestra configuración es la siguiente:

instalar git lfs

git lfs pista "*.wav"

git agrega .gitattributes

La documentación oficial dice que configure el multiprocesamiento y otros archivos cfg, que están relacionados con la síntesis posterior y no necesitan ejecutarse ahora. A continuación, cambiaremos la rama a 2020branch y la descarga comenzará automáticamente:

git pago interspeech2020/maestro

La línea de comando muestra Actualizando archivos, lo que significa que la descarga ha comenzado y ahora solo tiene que esperar. Lleva mucho tiempo y requiere paciencia. Una vez completado, el directorio datasets/ es el conjunto de datos descargado.

El conjunto de datos se divide en dos partes: voz humana y ruido.Es necesario sintetizar la voz humana con ruido para el entrenamiento. Consulte el documento oficial para conocer el método de síntesis específico en el seguimiento.

Método de descarga del conjunto de datos de Interspeech 2020 DNS Challenge

Método de descarga oficial

Supongo que te gusta