Primero, presente dos herramientas de síntesis de voz libres.
Balabolká
El sitio web oficial
http://balabolka.site/balabolka.htm
es una herramienta de síntesis de voz gratuita basada en Microsoft Speech API (SAPI). Es solo una síntesis de pronunciación simple y el efecto es relativamente contundente.
Cocinar TTS
El sitio web oficial
https://coqui.ai/
es un software de síntesis de voz basado en el aprendizaje profundo, y el efecto es mejor
Instalar Coqui TTS bajo Windows
El entorno de instalación
requiere el entorno operativo python: https://www.python.org/downloads/windows/Este
artículo se basa en la versión: python-3.8.10-amd64.exe , y actualiza y configura la fuente de instalación de pip por tí mismo
pip instalar Coqui-TTS
pip install tts
Se instalará la antorcha de la biblioteca de aprendizaje automático y una gran cantidad de paquetes de componentes relacionados, aproximadamente 1G
Successfully installed Babel-2.12.1 Jinja2-3.1.2 MarkupSafe-2.1.2 TTS-0.11.1 Wer
kzeug-2.2.3 anyascii-0.3.1 audioread-3.0.0 backports.zoneinfo-0.2.1 certifi-2022
.12.7 cffi-1.15.1 charset-normalizer-3.1.0 click-8.1.3 colorama-0.4.6 coqpit-0.0
.17 cython-0.29.28 dateparser-1.1.7 decorator-5.1.1 docopt-0.6.2 flask-2.2.3 fss
pec-2023.3.0 g2pkk-0.1.2 gruut-2.2.3 gruut-ipa-0.13.0 gruut_lang_de-2.0.0 gruut_
lang_en-2.0.0 idna-3.4 importlib-metadata-6.0.0 importlib_resources-5.12.0 infle
ct-5.6.0 itsdangerous-2.1.2 jamo-0.4.1 jieba-0.42.1 joblib-1.2.0 jsonlines-1.2.0
librosa-0.8.0 llvmlite-0.38.1 mecab-python3-1.0.5 networkx-2.8.8 nltk-3.8.1 num
2words-0.5.12 numba-0.55.1 numpy-1.21.6 pandas-1.5.3 platformdirs-3.1.1 pooch-1.
7.0 protobuf-3.19.6 psutil-5.9.4 pycparser-2.21 pynndescent-0.5.8 pypinyin-0.48.
0 pysbd-0.3.4 python-crfsuite-0.9.9 pytz-2022.7.1 pytz-deprecation-shim-0.1.0.po
st0 pyyaml-6.0 regex-2022.10.31 requests-2.28.2 resampy-0.4.2 scikit-learn-1.2.2
scipy-1.10.1 soundfile-0.12.1 tensorboardX-2.6 threadpoolctl-3.1.0 torch-1.13.1
torchaudio-0.13.1 tqdm-4.65.0 trainer-0.0.20 typing-extensions-4.5.0 tzdata-202
2.7 tzlocal-4.2 umap-learn-0.5.1 unidic-lite-1.0.8 urllib3-1.26.15 zipp-3.15.0
Después de la instalación, puede usar la herramienta tts directamente en la línea de comando (requiere que la ruta de la variable de entorno del sistema incluya el directorio de instalación del usuario de Python: Python38\Scripts)
para ver todos los modelos locales
tts --list_models
Ejecutar el comando de prueba
tts --text "Hello world." --out_path aaa.wav
En este momento, se descargará el primer elemento de la lista de modelos: https://coqui.gateway.scarf.sh/v0.10.1_models/tts_models–multilingual–multi-dataset–your_tts.zip, pero este enlace nunca se ha descargado con éxito desde mi lado Sin embargo,
solo puede descargar manualmente tts_models–zh-CN–baker–tacotron2-DDC-GST.zip desde github
https://github.com/coqui-ai/TTS/releases/tag/v0.10.1 _models , que es el modelo de entrenamiento para varias personas de YourTTS, que solo contiene inglés, francés y español. Después de descargarlo, descomprímalo para
%USERPROFILE%\AppData\Local\tts
Use el comando nuevamente: –list_models, puede ver que el primer modelo se ha descargado. En teoría, la voz se puede emitir correctamente aquí, pero encontré dos problemas aquí.
Falta avdevice-58.dll
Esto se debe a la falta del entorno operativo ffmpeg, visite el sitio web oficial: https://ffmpeg.org/download.html , verifique que la versión requerida por libavdevice 58 sea 4.4.3
y encuéntrela en el sitio web oficial: https: //github.com/BtbN/FFmpeg -Builds/releases/tag/autobuild-2023-03-13-12-46
Descargue uno de ellos: ffmpeg-n4.4.3-3-gb48951bd29-win64-lgpl-shared-4.4. zip
Descomprima y copie los siguientes dlls en el directorio de instalación del usuario de Python: Python38\Scripts, hay
una solución más simple, si WeChat y QQ se han instalado en el sistema, también es posible copiar directamente avdevice-58.dll en el directorio de instalación a Python38\Scripts
_MeCab: No se pudo encontrar el módulo especificado.
Esto es extraño, probé muchos métodos, incluida la instalación desde
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996.2 : mecab-64-0.996.2.exe , copia libmecab.lib, libmecab .dll, y actualizar vsruntime no puede resolverlo. Más tarde, vi un problema: https://github.com/coqui-ai/TTS/issues/711 y me inspiré. Aunque la versión que uso es diferente, el método es similar Lo encontré buscando Agregar comentario # , cierre la referencia de MeCab y puede ejecutar tts sin problemas
Descargar el modelo de habla china
Dado que la conexión de descarga predeterminada de tts siempre falla, aún se descarga manualmente: https://github.com/coqui-ai/TTS/releases/tag/v0.6.1_models
Descárguelo: tts_models–zh-CN–baker– tacotron2-DDC-GST.zip
también se descomprime para
%USERPROFILE%\AppData\Local\tts
Habla china sintética
Después de mucho lanzamiento, pude sintetizar con éxito el habla china, y el modelo chino debe especificarse en el comando
tts --text "知是行之始,行是知之成。" --out_path aaa.wav --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST
Usando la síntesis de voz china en python
from TTS.api import TTS
tts=TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST")
tts.tts_to_file(text="知是行之始,行是知之成。", file_path="aaa.wav")
referencia
https://github.com/coqui-ai/TTS
https://tts.readthedocs.io/en/latest/index.html
https://github.com/Edresson/YourTTS
https://github.com/SamuraiT /mecab-python3/issues/46
https://blog.csdn.net/Haulyn5/article/details/126770543
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://blog.csdn. net/weixin_43816759/artículo/detalles/119277486