Herramienta de síntesis de voz Instalación y experiencia Coqui TTS

Primero, presente dos herramientas de síntesis de voz libres.

Balabolká

El sitio web oficial
http://balabolka.site/balabolka.htm
es una herramienta de síntesis de voz gratuita basada en Microsoft Speech API (SAPI). Es solo una síntesis de pronunciación simple y el efecto es relativamente contundente.

Cocinar TTS

El sitio web oficial
https://coqui.ai/
es un software de síntesis de voz basado en el aprendizaje profundo, y el efecto es mejor

Instalar Coqui TTS bajo Windows

El entorno de instalación
requiere el entorno operativo python: https://www.python.org/downloads/windows/Este
artículo se basa en la versión: python-3.8.10-amd64.exe , y actualiza y configura la fuente de instalación de pip por tí mismo

pip instalar Coqui-TTS

pip install tts

Se instalará la antorcha de la biblioteca de aprendizaje automático y una gran cantidad de paquetes de componentes relacionados, aproximadamente 1G

Successfully installed Babel-2.12.1 Jinja2-3.1.2 MarkupSafe-2.1.2 TTS-0.11.1 Wer
kzeug-2.2.3 anyascii-0.3.1 audioread-3.0.0 backports.zoneinfo-0.2.1 certifi-2022
.12.7 cffi-1.15.1 charset-normalizer-3.1.0 click-8.1.3 colorama-0.4.6 coqpit-0.0
.17 cython-0.29.28 dateparser-1.1.7 decorator-5.1.1 docopt-0.6.2 flask-2.2.3 fss
pec-2023.3.0 g2pkk-0.1.2 gruut-2.2.3 gruut-ipa-0.13.0 gruut_lang_de-2.0.0 gruut_
lang_en-2.0.0 idna-3.4 importlib-metadata-6.0.0 importlib_resources-5.12.0 infle
ct-5.6.0 itsdangerous-2.1.2 jamo-0.4.1 jieba-0.42.1 joblib-1.2.0 jsonlines-1.2.0
 librosa-0.8.0 llvmlite-0.38.1 mecab-python3-1.0.5 networkx-2.8.8 nltk-3.8.1 num
2words-0.5.12 numba-0.55.1 numpy-1.21.6 pandas-1.5.3 platformdirs-3.1.1 pooch-1.
7.0 protobuf-3.19.6 psutil-5.9.4 pycparser-2.21 pynndescent-0.5.8 pypinyin-0.48.
0 pysbd-0.3.4 python-crfsuite-0.9.9 pytz-2022.7.1 pytz-deprecation-shim-0.1.0.po
st0 pyyaml-6.0 regex-2022.10.31 requests-2.28.2 resampy-0.4.2 scikit-learn-1.2.2
 scipy-1.10.1 soundfile-0.12.1 tensorboardX-2.6 threadpoolctl-3.1.0 torch-1.13.1
 torchaudio-0.13.1 tqdm-4.65.0 trainer-0.0.20 typing-extensions-4.5.0 tzdata-202
2.7 tzlocal-4.2 umap-learn-0.5.1 unidic-lite-1.0.8 urllib3-1.26.15 zipp-3.15.0

Después de la instalación, puede usar la herramienta tts directamente en la línea de comando (requiere que la ruta de la variable de entorno del sistema incluya el directorio de instalación del usuario de Python: Python38\Scripts)
para ver todos los modelos locales

tts --list_models

Ejecutar el comando de prueba

tts --text "Hello world." --out_path aaa.wav

En este momento, se descargará el primer elemento de la lista de modelos: https://coqui.gateway.scarf.sh/v0.10.1_models/tts_models–multilingual–multi-dataset–your_tts.zip, pero este enlace nunca se ha descargado con éxito desde mi lado Sin embargo,
solo puede descargar manualmente tts_models–zh-CN–baker–tacotron2-DDC-GST.zip desde github
https://github.com/coqui-ai/TTS/releases/tag/v0.10.1 _models , que es el modelo de entrenamiento para varias personas de YourTTS, que solo contiene inglés, francés y español. Después de descargarlo, descomprímalo para

%USERPROFILE%\AppData\Local\tts

Use el comando nuevamente: –list_models, puede ver que el primer modelo se ha descargado. En teoría, la voz se puede emitir correctamente aquí, pero encontré dos problemas aquí.

Falta avdevice-58.dll

inserte la descripción de la imagen aquíEsto se debe a la falta del entorno operativo ffmpeg, visite el sitio web oficial: https://ffmpeg.org/download.html , verifique que la versión requerida por libavdevice 58 sea 4.4.3
y encuéntrela en el sitio web oficial: https: //github.com/BtbN/FFmpeg -Builds/releases/tag/autobuild-2023-03-13-12-46
Descargue uno de ellos: ffmpeg-n4.4.3-3-gb48951bd29-win64-lgpl-shared-4.4. zip
Descomprima y copie los siguientes dlls en el directorio de instalación del usuario de Python: Python38\Scripts, hay
inserte la descripción de la imagen aquíuna solución más simple, si WeChat y QQ se han instalado en el sistema, también es posible copiar directamente avdevice-58.dll en el directorio de instalación a Python38\Scripts

_MeCab: No se pudo encontrar el módulo especificado.

Esto es extraño, probé muchos métodos, incluida la instalación desde
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996.2 : mecab-64-0.996.2.exe , copia libmecab.lib, libmecab .dll, y actualizar vsruntime no puede resolverlo. Más tarde, vi un problema: https://github.com/coqui-ai/TTS/issues/711 y me inspiré. Aunque la versión que uso es diferente, el método es similar Lo encontré buscando Agregar comentario # , cierre la referencia de MeCab y puede ejecutar tts sin problemas


inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Descargar el modelo de habla china

Dado que la conexión de descarga predeterminada de tts siempre falla, aún se descarga manualmente: https://github.com/coqui-ai/TTS/releases/tag/v0.6.1_models
Descárguelo: tts_models–zh-CN–baker– tacotron2-DDC-GST.zip
también se descomprime para

%USERPROFILE%\AppData\Local\tts

Habla china sintética

Después de mucho lanzamiento, pude sintetizar con éxito el habla china, y el modelo chino debe especificarse en el comando

tts --text "知是行之始,行是知之成。" --out_path aaa.wav --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST

Usando la síntesis de voz china en python

from TTS.api import TTS
tts=TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST")
tts.tts_to_file(text="知是行之始,行是知之成。", file_path="aaa.wav")

referencia

https://github.com/coqui-ai/TTS
https://tts.readthedocs.io/en/latest/index.html
https://github.com/Edresson/YourTTS
https://github.com/SamuraiT /mecab-python3/issues/46
https://blog.csdn.net/Haulyn5/article/details/126770543
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://blog.csdn. net/weixin_43816759/artículo/detalles/119277486

Supongo que te gusta

Origin blog.csdn.net/tangyin025/article/details/129525878
Recomendado
Clasificación