[Übersetzung] 15 Open-Source-Text-to-Speech-Tools (TTS).

[Übersetzung] 15 Open-Source-Text-to-Speech-Tools (TTS).

Vorwort

Dieser Artikel wurde aus dem Artikel vom Mai 2022 übersetzt: 15 Open-Source-Text-to-Speech-TTS-Apps und -Bibliotheken .

Notiz:

  • Dieser Artikel ist eine Übersetzung dieses Artikels von vor einem Jahr, es gibt ein Zeitunterschiedsproblem und es handelt sich nicht um die neueste TTS-Technologie
  • Ob die in dieser Liste genannten Apps und Klassenbibliotheken Chinesisch unterstützen, muss noch überprüft werden

Inhaltsverzeichnis

Was ist Text-to-Speech (TTS)?

„Text-to-Speech“ oder „Sprachsynthese“ ist der Prozess, bei dem aus Text eine menschlich klingende Sprache erzeugt, Wörter erkannt und menschliche Sprache gebildet wird.

Im Jahr 1968 stellten Noriko Umeda und andere von den Nippon Denko Laboratories das weltweit erste Text-zu-Sprache-System vor.

Im Jahr 1961 nutzten der Physiker John Larry Kelly Jr. und sein Kollege Louis Gerstman einen IBM 704-Computer, um Sprache zu synthetisieren, die berühmteste in der Geschichte der Bell Labs. Eines der Ereignisse.

Die Vorteile von TTS?

OpenTTS: Offener Text-to-Speech-ServerOpenTTS: Open-Source-Text-to-Speech-Server

Der Hauptvorteil dieser Technologie sind Menschen mit Seh- und Lesebehinderungen, da sie die ersten Benutzer sind.

Heutzutage verwenden viele YouTube-Kanäle diese Technik, um die Bearbeitung zu minimieren und die Produktion zu maximieren.

In vielen modernen Betriebssystemen ist Text-to-Speech eine integrierte Barrierefreiheitsfunktion, die denjenigen hilft, die Text auf dem Bildschirm nicht einfach lesen können.

über diese Liste

In diesem Artikel stellen wir Ihnen eine Auswahl an kostenlosen und Open-Source-Anwendungen für Text-to-Speech (TTS) und Sprachsynthese vor. Sie können auch eine neue aktualisierte Liste für weitere [webbasierte Open-Source-TTS-Anwendungen und -Dienste] finden (https://medevel.com/free-tts/).

1- MARY TTS

MARY TTS ist ein mehrsprachiges Open-Source-Text-zu-Sprache-Synthesesystem, das in reinem Java geschrieben ist. Es ist für Windows, Linux und macOS verfügbar.

2 übrig

Kaldi ist ein in C++ geschriebenes Spracherkennungs-Toolkit, das unter der Apache-Lizenz v2.0 lizenziert ist. Der Quellcode ist auf [GitHub](https://github.com/kaldi-asr/kaldi) verfügbar.

Kaldi kann unter Windows, Linux und macOS ausgeführt werden. Es läuft auch auf Android, PowerPC und Web Assembly.

3- OpenTTS

OpenTTS ist ein kostenloser, in Python geschriebener Open-Source-TTS-Dienst. Es wird unter der Massachusetts Institute of Technology License (MIT) veröffentlicht. Es unterstützt mehrere Sprachen und verfügt über eine benutzerfreundliche Oberfläche. Außerdem sind viele alternative Bibliotheken enthalten.

Unterstützte Sprachen: Englisch (27), Deutsch (7), Französisch (3), Spanisch (2), Niederländisch (4), Russisch (3), Schwedisch (1), Italienisch (2), Swahili-Griechisch (1), Finnisch , Koreanisch, Japanisch, Chinesisch, Schwedisch usw.

4- eSpeak

eSpeak ist ein kompakter Open-Source-Software-Sprachsynthesizer für Linux und Windows, für Englisch und andere Sprachen. Es unterstützt mehrere Sprachen und verfügt über viele nützliche Funktionen, was es für viele Benutzer zur idealen Wahl macht.

Sprachunterstützung

Afrikaans, Albanisch, Aragonesisch, Armenisch, Bulgarisch, Kantonesisch, Katalanisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Persisch, Finnisch, Französisch, Georgisch, Deutsch, Griechisch, Hindi, Ungarisch, Isländisch, Indonesisch, Irisch, Italienisch, Kannada, Kurdisch, Lettisch, Litauisch, Logik, Mazedonisch, Malaiisch, Malayalam, Mandarin, Nepali, Norwegisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Serbisch, Slowakisch, Spanisch, Suaheli, Schwedisch, Tamil, Türkisch, Vietnamesisch, Walisisch.

5- Text-zu-Sprache-Konverter

Mit diesem Open-Source- Projekt können Sie jeden Text einfach in Sprache umwandeln, indem Sie den Text kopieren und in die einfache Benutzeroberfläche einfügen. Es ist in der Programmiersprache C# geschrieben und läuft derzeit unter Windows.

6- ONLINE-TTS

Online TTS ist ein einfaches HTML/JavaScript-Projekt, das Ihre englischen Texte in einschüchternde Reden verwandelt.

Online TTS verfügt über einfache Verknüpfungen und eine übersichtliche Benutzeroberfläche.

7- Sprühen

Flite ist eine kleine, schnelle Laufzeitsynthese-[Bibliothek](https://github.com/festvox/flite) für eingebettete Systeme und Server. Die Kernbibliothek von Flite wurde von Alan W Black [email protected] (hauptsächlich in seiner sogenannten Freizeit) entwickelt, der am Language Technologies Institute der Carnegie Mellon University angestellt ist.

Flite unterstützt Windows, Linux, macOS, Android, FreeBSD und mehrere andere Systeme.

8- Julius

Julius ist eine Open-Source-Engine zur kontinuierlichen Spracherkennung mit großem Vokabular.

Es handelt sich um eine hochleistungsfähige LVCSR-Decodersoftware (Large Vocabulary Continuous Speech Recognition) mit geringem Platzbedarf für sprachbezogene Forscher und Entwickler. Wortbasierte N-Gramme und kontextsensitive HMMs.

9- Athene

Athena ist eine Open-Source-Implementierung einer Sequenz-zu-Sequenz-basierten Sprachverarbeitungs-Engine

Athena-Funktionen

End-to-End-ASR basierend auf Hybrid Attention/CTC

  • Sprachwechsler

  • Unbeaufsichtigtes Vortraining

  • Multi-GPU-Training auf einer Maschine oder mehreren Maschinen mit Horovod

  • End-to-End-TTS basierend auf Tacotron2, unterstützt Multi-Speaker und GST

  • Transformer-basiertes TTS und FastSpeech

  • WFST-Erstellung und WFST-basierte Dekodierung

  • Bereitstellen mit Tensorflow C++

10- ESPnet: End-to-End-Toolkit zur Sprachverarbeitung

ESPnet ist ein End-to-End-Sprachverarbeitungs-Toolkit, das sich hauptsächlich auf End-to-End-Spracherkennung und End-to-End-Text-to-Speech konzentriert.

Es handelt sich um eine entwicklerfreundliche Anwendung, die in Webprojekte integriert werden kann. Entwickler können es auch mit Docker installieren.

11- Voice Builder

Voice Builder ist ein Open-Source-Sprachaufbautool für Text-to-Speech (TTS), das sich auf Einfachheit, Flexibilität und Zusammenarbeit konzentriert. Mit unserem Tool kann jeder mit grundlegenden Computerkenntnissen Sprachtrainingsexperimente durchführen und sich die daraus resultierende synthetische Sprache anhören.

Das Voice Builder-Projekt ist in JavaScript geschrieben und unter der Apache-2.0-Lizenz veröffentlicht.

12- TTS kochen

Coqui TTS ist eine Bibliothek für fortgeschrittene Text-zu-Sprache. Es basiert auf den neuesten Forschungsergebnissen und ist darauf ausgelegt, die beste Balance zwischen einfacher Schulung, Geschwindigkeit und Qualität zu erreichen.

13- Mozilla TTS

Mozilla TTS ist eine Bibliothek für die erweiterte Text-zu-Sprache-Generierung. Es basiert auf den neuesten Forschungsergebnissen und ist darauf ausgelegt, die beste Balance zwischen einfacher Schulung, Geschwindigkeit und Qualität zu erreichen.

14- Mycoft-Nachahmer

Mycroft ist ein Open-Source-Sprachassistentensystem. Mimic ist eine integrierte TTS-Bibliothek, die vom Mycroft- Team erstellt wurde.

15- Kostenlose TTS

FreeTTS: Plattformübergreifende Text-to-Speech-Anwendung

FreeTTS ist ein Sprachsynthesesystem, das vollständig in der Programmiersprache JavaTM geschrieben ist. Es basiert auf Flite: einer kleinen Laufzeit-Sprachsynthese-Engine, die an der Carnegie Mellon University entwickelt wurde. Flite ist vom Festival Speech Synthesis System der University of Edinburgh und dem FestVox-Projekt der Carnegie Mellon University abgeleitet.

Es unterstützt die Formate AU und WAV in 16/8k. Es wurde auf der Betriebssystemumgebung Solaris TM sowie den Betriebssystemen Mac OS X, Linux und Win32 getestet.

Supongo que te gusta

Origin blog.csdn.net/guigenyi/article/details/130601822
Recomendado
Clasificación