Googleのオープンソースのリアルタイム音声転写エンジンライブ議事録スピーチエンジン

昨日、その中にGoogleのオープンソースのブログがライブ議事録の音声エンジン(ライブ議事録スピーチエンジン)、音声やリアルタイムの転写におけるテキストの会話でも、聴覚障害者を支援することが可能であることを目指し- Androidのオープンソースの音声認識転写ツールを発表しました。

ライブ議事録は、  月にGoogleが今年は最も先進的なクラウドのスピーチAPIによって、Googleの音声認識が提供するAndroidアプリケーションを立ち上げています。しかし、クラウドに応じて、いくつかの堅牢性テストをもたらすなど、ネットワーク接続、データのコストや遅延を変更する、いくつかの複雑さを紹介します。そのため、Googleは開発者がさらに発展し、既存の基礎の上に構築することを願って、オープンソースの外にそれを置きます。

クラウドスピーチAPIはまだ無制限のオーディオストリームをサポートしていませんが、現在のチームは、このような手を差し伸べると効果的にテキストセッション損失量を削減するストリーミング要求を、再起動する前にオフにすると、この問題に対処するためにいくつかの措置を講じています。

無制限のストリーミングオーディオは、大きな挑戦をもたらします。多くの国では、ネットワークデータは、帯域幅が制限される可能性が非常に高価と貧しいインターネットです。議事録音声認識エンジンチームオーディオコーデック大規模な実験の数、および最終的には10倍の減少量で使用されるデータの精度に影響を与えずに住んでいます。

それは、リアルタイムの音声転写を提供することであるので、また、転写されたテキストは、絶えず変化の声として入力され、遅延を低減することは当然非常に必要です。エンジンは大幅に、そのカスタムオーパスエンコーダのおかげで遅延率を減らすことができます。

また、ライブの議事録は70の以上の言語をサポートしており、中国などの自動音声認識言語に基づくことができることを言及する価値があります。

おすすめ

転載: www.oschina.net/news/109163/google-opensources-live-transcribes-speech-engine