Présentez d'abord deux outils de synthèse vocale gratuits
Balabolka
Le site officiel
http://balabolka.site/balabolka.htm
est un outil de synthèse vocale gratuit basé sur l'API Microsoft Speech (SAPI).C'est juste une simple synthèse de prononciation, et l'effet est relativement brutal.
Cuisinier TTS
Le site officiel
https://coqui.ai/
est un logiciel de synthèse vocale basé sur l'apprentissage en profondeur, et l'effet est meilleur
Installer Coqui TTS sous Windows
L'environnement d'installation
nécessite l'environnement d'exploitation python : https://www.python.org/downloads/windows/Cet
article est basé sur la version : python-3.8.10-amd64.exe , et met à jour et configure la source d'installation de pip par toi-même
pip installer Coqui-TTS
pip install tts
La torche de la bibliothèque d'apprentissage automatique et un grand nombre de packages de composants associés seront installés, environ 1G
Successfully installed Babel-2.12.1 Jinja2-3.1.2 MarkupSafe-2.1.2 TTS-0.11.1 Wer
kzeug-2.2.3 anyascii-0.3.1 audioread-3.0.0 backports.zoneinfo-0.2.1 certifi-2022
.12.7 cffi-1.15.1 charset-normalizer-3.1.0 click-8.1.3 colorama-0.4.6 coqpit-0.0
.17 cython-0.29.28 dateparser-1.1.7 decorator-5.1.1 docopt-0.6.2 flask-2.2.3 fss
pec-2023.3.0 g2pkk-0.1.2 gruut-2.2.3 gruut-ipa-0.13.0 gruut_lang_de-2.0.0 gruut_
lang_en-2.0.0 idna-3.4 importlib-metadata-6.0.0 importlib_resources-5.12.0 infle
ct-5.6.0 itsdangerous-2.1.2 jamo-0.4.1 jieba-0.42.1 joblib-1.2.0 jsonlines-1.2.0
librosa-0.8.0 llvmlite-0.38.1 mecab-python3-1.0.5 networkx-2.8.8 nltk-3.8.1 num
2words-0.5.12 numba-0.55.1 numpy-1.21.6 pandas-1.5.3 platformdirs-3.1.1 pooch-1.
7.0 protobuf-3.19.6 psutil-5.9.4 pycparser-2.21 pynndescent-0.5.8 pypinyin-0.48.
0 pysbd-0.3.4 python-crfsuite-0.9.9 pytz-2022.7.1 pytz-deprecation-shim-0.1.0.po
st0 pyyaml-6.0 regex-2022.10.31 requests-2.28.2 resampy-0.4.2 scikit-learn-1.2.2
scipy-1.10.1 soundfile-0.12.1 tensorboardX-2.6 threadpoolctl-3.1.0 torch-1.13.1
torchaudio-0.13.1 tqdm-4.65.0 trainer-0.0.20 typing-extensions-4.5.0 tzdata-202
2.7 tzlocal-4.2 umap-learn-0.5.1 unidic-lite-1.0.8 urllib3-1.26.15 zipp-3.15.0
Après l'installation, vous pouvez utiliser l'outil tts directement sur la ligne de commande (nécessite le chemin de la variable d'environnement système pour inclure le répertoire d'installation de l'utilisateur Python : Python38\Scripts)
pour afficher tous les modèles locaux
tts --list_models
Exécutez la commande de test
tts --text "Hello world." --out_path aaa.wav
À ce moment, le premier élément de la liste des modèles sera téléchargé : https://coqui.gateway.scarf.sh/v0.10.1_models/tts_models–multilingual–multi-dataset–your_tts.zip, mais ce lien n'a jamais été téléchargé avec succès de mon côté Cependant, vous ne pouvez télécharger
manuellement tts_models–zh-CN–baker–tacotron2-DDC-GST.zip depuis github
https://github.com/coqui-ai/TTS/releases/tag/v0.10.1 _models , qui est le modèle de formation multi-personnes de YourTTS, qui ne contient que l'anglais, le français et l'espagnol. Après le téléchargement, décompressez-le dans
%USERPROFILE%\AppData\Local\tts
Utilisez à nouveau la commande : –list_models, vous pouvez voir que le premier modèle a été téléchargé. En théorie, la voix peut être émise correctement ici, mais j'ai rencontré deux problèmes ici
avdevice-58.dll est manquant
C'est à cause du manque d'environnement d'exploitation ffmpeg, visitez le site officiel : https://ffmpeg.org/download.html , vérifiez que la version requise par libavdevice 58 est 4.4.3
et trouvez-la sur le site officiel : https : //github.com/BtbN/FFmpeg -Builds/releases/tag/autobuild-2023-03-13-12-46
Téléchargez-en un : ffmpeg-n4.4.3-3-gb48951bd29-win64-lgpl-shared-4.4. zip
Décompressez et copiez les dll suivantes dans le répertoire d'installation de l'utilisateur Python : Python38\Scripts, il existe
une solution plus simple, si WeChat et QQ ont été installés dans le système, il est également possible de copier directement avdevice-58.dll dans le répertoire d'installation vers Python38\Scripts
_MeCab : le module spécifié est introuvable.
C'est étrange, j'ai essayé de nombreuses méthodes, y compris l'installation à partir de
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996.2 : mecab-64-0.996.2.exe , copie libmecab.lib , libmecab .dll, et la mise à jour de vsruntime ne peut pas le résoudre. Plus tard, j'ai vu un problème : https://github.com/coqui-ai/TTS/issues/711 et j'ai été inspiré. Bien que la version que j'utilise soit différente, la méthode est similaire. Je l'ai trouvé en recherchant Ajouter un commentaire # , fermez la référence MeCab et vous pouvez exécuter tts en douceur
Télécharger le modèle de discours chinois
Étant donné que la connexion de téléchargement par défaut de tts échoue toujours, il est toujours téléchargé manuellement : https://github.com/coqui-ai/TTS/releases/tag/v0.6.1_models
Téléchargez-le : tts_models–zh-CN–baker– tacotron2-DDC-GST.zip
est également décompressé en
%USERPROFILE%\AppData\Local\tts
Discours chinois synthétique
Après beaucoup de lancers, j'ai réussi à synthétiser le discours chinois, et le modèle chinois doit être spécifié dans la commande
tts --text "知是行之始,行是知之成。" --out_path aaa.wav --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST
Utilisation de la synthèse vocale chinoise en python
from TTS.api import TTS
tts=TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST")
tts.tts_to_file(text="知是行之始,行是知之成。", file_path="aaa.wav")
référence
https://github.com/coqui-ai/TTS
https://tts.readthedocs.io/en/latest/index.html
https://github.com/Edresson/YourTTS
https://github.com/SamuraiT /mecab-python3/issues/46
https://blog.csdn.net/Haulyn5/article/details/126770543
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://blog.csdn. net/weixin_43816759/article/details/119277486