深いニューラルネットワークのためのアーキテクチャは、ウィンドウ音声波形(INTERSPEECH 2015)上で定義された音響モデルをベース:六十から四ノートの紙を読みます

 

ペーパーサイト:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf

概要

      この論文では、ニューラルネットワークや直接入力音声波形状の入力窓(WSW)である深さ逆行音声自動音声認識(ASR)モデルを使用します。本論文では、(メルスペクトルは何ですか?リファレンス、同様の特性を持っているネットワークはメルスペクトルで自動化する必要があることを示してhttps://blog.csdn.net/qq_28006327/article/details/59129110、)この論文を構造的特徴のWSWを採掘DNN。まず、動的bottlenect DNN時間領域スペクトル情報を捕捉するための改良された構造は、困難な状況を表しました。DNNN内の冗長な情報に基づいてWSWも考慮すること。機能メルスペクトル相関特性(MFSC)に基づいてWSW音声モデルの音声モデルは、ウォール・ストリート・コーパスデータセットに比較されます。結果は、WSJコーパスに基づく音声モデルにWER MFSCの特徴に基づくモデルよりWSWの機能は3.0%増加し得ることを示しています。しかし、合成MFSC特性、4.1%降下特性DNNN MFSC基づいて単一の最良のモデルと比較して。

キーワード:ボトルネックを特徴音声認識、ニューラルネットワークの深さ、音声波形

入門

      いくつかの研究は、それが自動音声認識ニューラルネットワークの深さを使用することによって達成することができる示し、音声波形データウィンドウタイプ(WSW)の入力、研究のほとんどは、ネットワークの多層構造、同時に、異なる領域にそのタスクを示す評価、 :ASRワード誤り率(WERs、参照リンクhttps://zhuanlan.zhihu.com/p/59252804をより一般的特徴基づいMFSC WSW機能の合理的な近似値であってもよいです)。しかし、この研究に基づいて、まだ音声ベースのモデルWSWはMFSCに基づく方法と特徴比較することはできません。WERsは、一般に、より高いモデルベースの機能WSW MFSC 15%〜20%と比較します。この論文で、これらの問題に対する主応答、ニューラルネットワーク、性能ベースのモデルアプローチMFSCボイスオーバーの深さの特性に基づいて、自動分析のための効果的なネットワークの構造学習アルゴリズムの確立。

      自動音声認識、本明細書に記載の音声ベースの分析方法を学習三つの部分の前記深さのフィールドです。最初は、DNNがWSWを特徴とする解析モデルに入力されます。静的または動的スペクトルのこのタイプの明確なモデルは、ノイズ源の変化に良好を示す情報のスペクトル、ならびに異なる信号におけるそのロバスト性を表します。実験は、ネットワークの深さが表現WSWセカンダリ特徴から同様の特徴にMFSCメルスペクトルであり得ることを示します。これらの機能は、完全に接続されたネットワークまたは実装畳み込みネットワーク構造の深さであってもよいです。第二の部分は、分析のためのネットワークの重みのためのものです。表現とスペクトル特性メルのコーパス層の前にウォールストリートに基づいてDNN完全に接続されたネットワークに類似ショー、あまり使用コーパスのサイズ。

      ネットワーク構造の交換の研究の第二部は、音声情報が自動的にウィンドウ型音声波から取得することを学ぶされていないと解釈します。本論文では、スーパーバンドスペクトルのダイナミックモデリングに基づくDNN WSWの能力に焦点を当てています。どちらも、人間の音声認識や音声認識モデル変換スペクトルは非常に重要な位置を有するスペクトル変換します。前記短いセグメントから得られる意味論的に含まれている情報の変化率。セマンティックモデルセグメントは、フーリエ変換分光特性MFSCに変換を実行することによって説明されます。

      MFSCセマンティックモデル、相関の静的係数を追加するために、カスケード接続のスペクトルベクトル形式の複数または周波数スペクトル差の形式を使用して、動的スペクトル特徴ベクトルが捕捉されます。そのような分光特性の表現は250ミリ秒と150ミリ秒の動きを取り込むことができます。ウィンドウタイプのこのような特徴は、波が難しいDNNは、音波から学ぶネットワークに基づいWSWの時間間隔を大きくしても。ボトルネックネットワーク構造層は、フレームが250ミリ秒の出力に接合することができ、機能をキャプチャするクションsection2に組み込むことができます。

      第三部であってもDNNの音声モデルが結果MFSCの機能に基づいて、システムの最高のパフォーマンスを達成することができ、この論文に基づいていますが、いくつかの追加の計算の複雑さと冗長性を必要としています。この仮定は単純メルなり、右いっぱいに良い、または部分的に置換されたリンクの深トレーニングネットワークの重みによって接続されたフィルタバンクです。完全な接続DNNのために。1,000,000オペレーションを超える各ネットワーク。第四章では自動訓練フィルタバンクの冗長性を考慮しています。

      第二章では、隠れ層DNNトレーニング重量の重量に基づいてWSW分析を説明しています。セクションIIIは、連続的なボトルネックベースWSWはDNNスペクトルの改良された動的モデルを提供特徴と記述する。

DNN WSWの分析に基づいて、

      このセクションでは、ウォールストリートから得られDNN WSWsトレーニングコーパスに示した中間層を調べます。まず、DNNのネットワーク構造は、次の実験に使用コーパス、最終結果は、第一層のウエイトトレーニング分析です。

      トレーニングおよびセマンティックモデル構造:DNN基づいWSW入力フレームは150msのサンプリングされた音声波形の一部です。本明細書で使用する場合、広帯域16kHzのサンプリング部スピーチ2400のサンプル。各分析フレームのために、位置は、事前に10ms又は160個のサンプルで入力しなければなりません。完全接続DNN三枚の隠れ層を含むため、各ノードは、1024から構成される。後非線形ノードReLUによって形質転換。ソフトマックス出力層は、層2019のノードを使用して、それぞれ、このコンテキストを表す依存隠れマルコフモデル(コンテキスト依存CD)。

      そして、モデル訓練コーパス:この記事では、すべての訓練と評価のためのコーパスウォールストリートの音声モデル。これは、信号対雑音比環境への高い信号で記録読書新聞の言説が含まれています。すべての音声HMMとDNNモデルのWSJ0 / WSJ1 SI-284のトレーニング。80時間の長いスピーチおよび284個のスピーカーから、含ま37961の言葉。試験-Dev93が検証セットとして515個の単語が含まれ、テスト-Eval92は、すべての評価に使用される言語モデル20,000語の語彙を開くために、対応する試験条件を使用して、試験のための330個のワードを含みます。、音声ボックス、CD HMM状態別MFCC(周波数ケプストラム係数)を整列HMM-GMMコンテキスト状態と自動的にモデルトレーナ2019クラスタリングする(H​​MM-遺伝子組換え微生物)集中連続混合ガウスのHMMに基づく音声認識デコーダカルディツールによって達成CDの状態。これらのモデルは、LDA最尤線形変換(MLLT)変換によりMFCC特徴を使用して訓練されます。同時にトレーニングプロセスは、この適応訓練に訓練を使用しました。ASRデコーダ2019は、クロストレーニングのDNN監督として、訓練されるべきCD状態音声フレームにラベルを割り当てます。

      DNN WSW基準を評価する:基本的な混合HMM-DNN ASRシステムの性能を評価するために、ネットワーク構造がWSWとMFSC特徴を含むMFCC機能と、トレーニング機能セットを複数用いて上記。HMM-GMMとHMM-DNNを表1に示すシステムにおいて以下に比べ。WERの実質的な減少があったHMM-GMMと比較HMM-DNN、最初の2行を比較することによって求めることができます。MFCC特徴、WER MFSC 3%の相対的減少特性と比較しました。下WSW機能MFCCに基づく比較WERで15.5%増加しています。

      音声モデルにおいてコーパスストリートWERに基づいて特別な設計上の特徴は、9%を下回ることができない元の音声サンプルに定義されてもよいです。あなたは、キャプチャネットワーク情報パラメータ推定に解析パラメータからいくつかのインスピレーションを拭くラインを介して取得することができます。重み行列Wで、メルスペクトル形状表現を用いました。図示DNNベースWSWに示すように、第1層において、これは、関連した重み行列の値と振幅スペクトルの計算は、これらのライン上の値に応じて帯域通過フィルタの応答を近似するの数を見ることができることを示しています。

      下图1展示了权重矩阵W1024行包含信息的总结。图中的第i行表示权重矩阵W中第i行的平滑对数幅度谱。平滑对数幅度谱通过对w进行padding,并对权重计算其快速傅里叶变换

 

,然后使用一个高斯核进行平滑处理。权重矩阵W的行数根据平滑后谱中每行的峰值计算得到的频率进行记录。最终对于记录的行数根据进行描点。由图中可以看出DNN已经学习到了类似于梅尔频谱的特征表示。

 

 

stacked bottoleneck architecture

      本节描述将bottleneck DNN应用到基于WSW的DNN语音模型中。该改进模型可以看作是一种机制,用于连续的将低维的bottleneck frames进行拼接,从而可以对帧间谱动态进行建模。ASR中许多基于BN DNN结构被提出来。其通用的结构形式如下图所示,BN-DNN通过级联一些高维度的非线性隐藏层及低纬度的隐藏层构建。这种设计的最初动因是对非线性空间进行降维处理。

     如上图所示,输入维度为2400(包含150ms)及一个40维度的bottleneck。一些BN-DNN通过拼接帧附近的bottleneck层的输出得到的局部谱信息进行增强。当将MFSC特征应用到BN-DNN时,BN只减少了一点WER。bottleneck谱信息的结合对于基于WSW的DNN是一个研究点,这是因为无法通过简单的方法在特征分层次对谱信息进行利用。因此,期望基于WSW 特征的BN-DNN结构可以拼接bottoleneck输出进而对ASR WER产生一个较大的影响。

     BN-DNN的结构设计如下:2400个输入节点对应着2400采样WSW,两个1024节点的隐藏层。及一个40个维度的bottleneck层。每层后面跟着一个ReLU。bottleneck层在具有1800个一二阶不同相关性节点向量的15帧进行拼接,表示150ms内频谱的动态变化。在解码过程中,级联的bottleneck输出送到三个1024维度的隐藏层的网络及2019节点的softmax输出层,DNN中softmax的输出对应HMM中上下文的相关状态(CD)。

     上图3下半部分显示的BNN-DNN中的DNN层分离出来进行训练,图的上半部分为HMM/DNN。BN-DNN基于CE损失标准进行训练,训练后,将bottleneck层移除,同时将BN层的激活值进行保留作为BN-DNN的输出。

     基于WSW及MFSC特征的BN-DNN WER性能结果如下图所示。将1,3行进行比较,基于MFSC特征对模型增加stacked bottleneck WER并没有发生很大的改变。这是由于1800维的MFSC特征作为BN网络的输入已经被拼接的15帧MFSC 帧图像格式化了。将第2行与第4行进行比较发现。BN-DNN将WSW特征的WER降低了14.2%,已经同最好的基于MFSC的WER很接近了。

     对WSW/MFSC特征结合使用,对于10ms,窗型输入,40维的WSW的BN-DNN与40维的MFSC向量进行拼接。80维的向量与+/-7帧向量进行拼接作为输入传到bottleneck中。上图最后一行显示了结果,相比MFSC特征WER,减少了%4。

基于WSW的DNN训练结构初始化

      通过前面对网络第一层度权重矩阵的分析,训练一个基于WSW的全连接DNN可以得到一个具有识别结构的网络。其包含的结构可能对于分类性能很重很。但很难从轶事中观察中进行表征。一种方法是增加一个类似于filter-bank的结构,选择一个与梅尔filter-bank特征分析类似的参数化。本文的工作重点是研究是否可以通过训练一个全连接网络来发现这个结构。确定研究网络的哪个部分来通过连续的迭代来提升网络的性能及效率。根据图1的第一层权重矩阵相邻行显示了大部分情况下中心频率相似,但相位及增益不同的filter的响应。通过观察,是否可以将该层进行隔离,从而可以使DNN更有效训练的结构。

      设计了两步过程,根据少量的"basis rows"的延迟及缩放变换来近似权重矩阵第一层的行。在过程的第一步,得到与带通滤波器相关的矩阵行数,该带通滤波器的中心频率接近于梅尔滤波器的中心频率。

其可以作为"basisi rows",用进行表示。在第二步,将最接近basis rows hi中心频率的滤波器的权重矩阵被看作是basis rows的缩放或者延迟版本。即对于权重矩阵第wj行,

其近似,其中,a_i,j 及d_i,j分别代表wj相对于hi(其傅里叶变换于带通滤波器的中心频率最相似)缩放尺度及延迟数值 。

      上述形成的具有行形式的第一层权重矩阵用于初始化训练一个新的基于WSW的DNN。下图显示了基于前文初始化得到的每个训练使其的验证集的帧精度(FAC)。与随机初始化的DNN参数得到的FAC进行比较,基于第一层权重矩阵的结构初始化,FAC的精度始终更高。另外,结构初始化使WER进行小幅度的下降。7.64%下降至7.51.同时,还使basis row与第一层权重矩阵的剩余行之间的平均近似误差减小。

 

おすすめ

転載: www.cnblogs.com/fourmi/p/10955012.html