Cómo descargar y utilizar el kit de herramientas HTK

HTK es un conjunto de herramientas utilizado para la investigación del reconocimiento automático de voz, es un software de código abierto desarrollado por el Laboratorio de Inteligencia Artificial del Departamento de Ingeniería de la Universidad de Cambridge, su nombre completo es The HiddenMarkov Toolkit . Sitio web oficial: http://htk.eng.cam.ac.uk 

Este kit de herramientas debe instalarse con VS antes de poder utilizarse. Debido a que está desarrollado en base a C. La instalación del kit de herramientas HTK requiere configurar una variable de entorno VS. Vale la pena mencionar que la ruta de la variable de entorno en la versión VS que podemos instalar ahora es muy diferente de la ruta indicada en el kit de herramientas HTK . La variable de entorno utilizada para la  versión VS2017 que instalé es D:\Microsoft Visual Studio\2017\Community\VC\Auxiliary\Build .

 

La instalación del kit de herramientas HTK requiere registrarse en el sitio web oficial antes de descargarlo. Después de descomprimirlo, puedes seguir los pasos para instalarlo tú mismo según el archivo README que viene con HTK . (Nota: debe operar en la ventana cmd debajo del archivo htk )

El kit de herramientas HTK tiene principalmente las siguientes funciones:

Herramienta de grabación y marcado    HSLab.exe    

   Hcopy.exe     es una herramienta para extraer parámetros de funciones del habla

   HInit.exe y HCompV.exe son herramientas para inicializar modelos HMM . Tenga en cuenta que debe usar este comando para inicializar cada modelo aquí.

   HRest.exe     es una herramienta para el entrenamiento iterativo de modelos.

   HParse.exe    es una herramienta para convertir gramática a Internet y la pronunciación se utiliza en este artículo.

Herramienta de comprobación de errores de sintaxis    HSGen.exe   

   Herramienta de decodificación HVite.exe      , también conocida como herramienta de identificación. Se puede utilizar en modo de línea de comandos o de forma interactiva.

 

Una vez completada la instalación, ¿cómo utilizar este kit de herramientas? El autor toma como ejemplo la extracción de características de MFCC utilizadas en los siguientes experimentos . Primero debe crear una nueva carpeta, luego copiar Hcopy.exe al archivo y luego debe configurar dos archivos list.scp y tr_wav.cfg . El marco general es el siguiente:

En el archivo list.scp , escriba el nombre del archivo WAV que se extraerá y el nombre del archivo mfc después de extraer las funciones de MFCC .

El archivo tr_wav.cfg almacena los parámetros para extraer funciones de MFCC .

#[MÓDULO] PARÁMETRO = VALOR

             TIPO DE FUENTE = FORMA DE ONDA

             FORMATO DE FUENTE = WAV

             ZMEDIOFUENTE = F #

             TIPO DE OBJETIVO = MFCC_E_D_A_Z

             OBJETIVO = 100000.0 # período de fotograma = 10 ms

             GUARDAR COMPRIMIDO = T

             GUARDAR CON RC = T

             TAMAÑO DE VENTA = 250000.0 # tamaño de ventana = 25 ms

             USAR HAMMING = T

             PREEMCOEF = 0,97 # Preénfasis de 1er orden, coeficiente = 0,97

             NUMCANS = 26 # núm. de canal del banco de filtros = 26

             CEPLIFTER = 22# núm. de cepstra = 22

             NÚMERO = 12 # núm. del coeficiente MFCC = 12

             ENORMALIZAR = T # normalización de energía (en vivo: F, en caso contrario: T)

             ALLOWXWRDEXP = T # Necesario para sistemas de palabras cruzadas

             FORCECXTEXP = T # Necesario para sistemas de crucigramas

#HSHELL Parámetros

   HSHELL: TRACE = 0002 # cotal

#HPARM Parámetros

   HPARM: TRAZA = 0101

 

#HLABEL Parámetros

   INTRODUCIR: SEGUIMIENTO = 0010        

#HNET Parámetros

   HNET: TRACE = 0001 # Necesario para el reconocimiento

#HREc Parámetros

   HREC: FORZADO = T

 

Abra cmd en esta carpeta y ejecute hcopy -A -D -T 1 -C tr_wav.cfg -S .\list.scp   para extraer el archivo .mfc requerido .

Los signos de éxito son los que se muestran a continuación:

Blog de referencia:

1. https://blog.csdn.net/qq_36444303/article/details/100164507?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control& Depth_1 -utm_source=distribute.pc_relevant.none-task-blog- BlogCommendFromBaidu-1.control

2. https://blog.csdn.net/jojozhangju/article/details/18714961

Supongo que te gusta

Origin blog.csdn.net/weixin_42637916/article/details/111464399
Recomendado
Clasificación