Outil de synthèse vocale Installation et expérience Coqui TTS

Présentez d'abord deux outils de synthèse vocale gratuits

Balabolka

Le site officiel
http://balabolka.site/balabolka.htm
est un outil de synthèse vocale gratuit basé sur l'API Microsoft Speech (SAPI).C'est juste une simple synthèse de prononciation, et l'effet est relativement brutal.

Cuisinier TTS

Le site officiel
https://coqui.ai/
est un logiciel de synthèse vocale basé sur l'apprentissage en profondeur, et l'effet est meilleur

Installer Coqui TTS sous Windows

L'environnement d'installation
nécessite l'environnement d'exploitation python : https://www.python.org/downloads/windows/Cet
article est basé sur la version : python-3.8.10-amd64.exe , et met à jour et configure la source d'installation de pip par toi-même

pip installer Coqui-TTS

pip install tts

La torche de la bibliothèque d'apprentissage automatique et un grand nombre de packages de composants associés seront installés, environ 1G

Successfully installed Babel-2.12.1 Jinja2-3.1.2 MarkupSafe-2.1.2 TTS-0.11.1 Wer
kzeug-2.2.3 anyascii-0.3.1 audioread-3.0.0 backports.zoneinfo-0.2.1 certifi-2022
.12.7 cffi-1.15.1 charset-normalizer-3.1.0 click-8.1.3 colorama-0.4.6 coqpit-0.0
.17 cython-0.29.28 dateparser-1.1.7 decorator-5.1.1 docopt-0.6.2 flask-2.2.3 fss
pec-2023.3.0 g2pkk-0.1.2 gruut-2.2.3 gruut-ipa-0.13.0 gruut_lang_de-2.0.0 gruut_
lang_en-2.0.0 idna-3.4 importlib-metadata-6.0.0 importlib_resources-5.12.0 infle
ct-5.6.0 itsdangerous-2.1.2 jamo-0.4.1 jieba-0.42.1 joblib-1.2.0 jsonlines-1.2.0
 librosa-0.8.0 llvmlite-0.38.1 mecab-python3-1.0.5 networkx-2.8.8 nltk-3.8.1 num
2words-0.5.12 numba-0.55.1 numpy-1.21.6 pandas-1.5.3 platformdirs-3.1.1 pooch-1.
7.0 protobuf-3.19.6 psutil-5.9.4 pycparser-2.21 pynndescent-0.5.8 pypinyin-0.48.
0 pysbd-0.3.4 python-crfsuite-0.9.9 pytz-2022.7.1 pytz-deprecation-shim-0.1.0.po
st0 pyyaml-6.0 regex-2022.10.31 requests-2.28.2 resampy-0.4.2 scikit-learn-1.2.2
 scipy-1.10.1 soundfile-0.12.1 tensorboardX-2.6 threadpoolctl-3.1.0 torch-1.13.1
 torchaudio-0.13.1 tqdm-4.65.0 trainer-0.0.20 typing-extensions-4.5.0 tzdata-202
2.7 tzlocal-4.2 umap-learn-0.5.1 unidic-lite-1.0.8 urllib3-1.26.15 zipp-3.15.0

Après l'installation, vous pouvez utiliser l'outil tts directement sur la ligne de commande (nécessite le chemin de la variable d'environnement système pour inclure le répertoire d'installation de l'utilisateur Python : Python38\Scripts)
pour afficher tous les modèles locaux

tts --list_models

Exécutez la commande de test

tts --text "Hello world." --out_path aaa.wav

À ce moment, le premier élément de la liste des modèles sera téléchargé : https://coqui.gateway.scarf.sh/v0.10.1_models/tts_models–multilingual–multi-dataset–your_tts.zip, mais ce lien n'a jamais été téléchargé avec succès de mon côté Cependant, vous ne pouvez télécharger
manuellement tts_models–zh-CN–baker–tacotron2-DDC-GST.zip depuis github
https://github.com/coqui-ai/TTS/releases/tag/v0.10.1 _models , qui est le modèle de formation multi-personnes de YourTTS, qui ne contient que l'anglais, le français et l'espagnol. Après le téléchargement, décompressez-le dans

%USERPROFILE%\AppData\Local\tts

Utilisez à nouveau la commande : –list_models, vous pouvez voir que le premier modèle a été téléchargé. En théorie, la voix peut être émise correctement ici, mais j'ai rencontré deux problèmes ici

avdevice-58.dll est manquant

insérez la description de l'image iciC'est à cause du manque d'environnement d'exploitation ffmpeg, visitez le site officiel : https://ffmpeg.org/download.html , vérifiez que la version requise par libavdevice 58 est 4.4.3
et trouvez-la sur le site officiel : https : //github.com/BtbN/FFmpeg -Builds/releases/tag/autobuild-2023-03-13-12-46
Téléchargez-en un : ffmpeg-n4.4.3-3-gb48951bd29-win64-lgpl-shared-4.4. zip
Décompressez et copiez les dll suivantes dans le répertoire d'installation de l'utilisateur Python : Python38\Scripts, il existe
insérez la description de l'image iciune solution plus simple, si WeChat et QQ ont été installés dans le système, il est également possible de copier directement avdevice-58.dll dans le répertoire d'installation vers Python38\Scripts

_MeCab : le module spécifié est introuvable.

C'est étrange, j'ai essayé de nombreuses méthodes, y compris l'installation à partir de
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996.2 : mecab-64-0.996.2.exe , copie libmecab.lib , libmecab .dll, et la mise à jour de vsruntime ne peut pas le résoudre. Plus tard, j'ai vu un problème : https://github.com/coqui-ai/TTS/issues/711 et j'ai été inspiré. Bien que la version que j'utilise soit différente, la méthode est similaire. Je l'ai trouvé en recherchant Ajouter un commentaire # , fermez la référence MeCab et vous pouvez exécuter tts en douceur


insérez la description de l'image ici
insérez la description de l'image ici

Télécharger le modèle de discours chinois

Étant donné que la connexion de téléchargement par défaut de tts échoue toujours, il est toujours téléchargé manuellement : https://github.com/coqui-ai/TTS/releases/tag/v0.6.1_models
Téléchargez-le : tts_models–zh-CN–baker– tacotron2-DDC-GST.zip
est également décompressé en

%USERPROFILE%\AppData\Local\tts

Discours chinois synthétique

Après beaucoup de lancers, j'ai réussi à synthétiser le discours chinois, et le modèle chinois doit être spécifié dans la commande

tts --text "知是行之始,行是知之成。" --out_path aaa.wav --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST

Utilisation de la synthèse vocale chinoise en python

from TTS.api import TTS
tts=TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST")
tts.tts_to_file(text="知是行之始,行是知之成。", file_path="aaa.wav")

référence

https://github.com/coqui-ai/TTS
https://tts.readthedocs.io/en/latest/index.html
https://github.com/Edresson/YourTTS
https://github.com/SamuraiT /mecab-python3/issues/46
https://blog.csdn.net/Haulyn5/article/details/126770543
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://blog.csdn. net/weixin_43816759/article/details/119277486

Je suppose que tu aimes

Origine blog.csdn.net/tangyin025/article/details/129525878
conseillé
Classement