これは、携帯電話の精度を犠牲にすることなくBERTリアルタイム推論を実装するのは初めてです。これは、TensorFlow-Liteのほぼ8倍の速さで、フレームあたりわずか45ミリ秒です...

著者|ワンヤンジー

プロデュース| AIテクノロジーベースキャンプ(ID:rgznai100)

Transformerベースの事前トレーニングモデルは、多くの自然言語処理(NLP)タスクで高い精度を実現しています。ただし、これらの事前トレーニング済みモデルは多くの場合、大量の計算とメモリを必要とします。モバイルプラットフォームのストレージ容量とコンピューティング能力の制限により、これらのモデルをモバイル側に展開することは困難です。

したがって、エッジコンピューティングがますます重要になるにつれて、これらの大きなモデルを効果的に圧縮する方法が重要な研究トピックになっています。 

昨年、複数のダウンストリームNLPタスクの精度を維持しながらBERTモデルのサイズを削減するために、多くの小さなモデルが次々に提案されています。たとえば、DistilBERTとTinyBERTは、Transformerブロックの数を減らすことでモデルを削減する目的を達成しますが、精度はBERTベースの精度よりも大幅に低くなります。

BERTベースに基づいて、MobileBERTは、精度のわずかな損失を維持しながら、モデルサイズ比を4倍に削減することに成功しました。興味深いことに、MobileBERTをVGG-16と比較すると、MobileBERTの計算はVGG-16の計算より5.3倍小さくなりますが、計算遅延はVGG-16の計算より6.2倍高くなります。

この現象の理由は、MobileBERTには2000を超える計算レイヤー(BERT-largeと同じ)があり、計算プロセスで多数の中間結果が生成され、最終的に深刻な計算遅延につながるためです。

これは、リアルタイム推論を実現するためにモバイル端末にさらに深いネットワークモデルを展開する際のもう1つの大きな障害にもなっています。

したがって、BERTモデルの精度を犠牲にすることなく、モバイル端末上でリアルタイムの推論を実現できる効果的なソリューションがあるかどうかを考えざるを得ませんか?

最近、ノースイースタン大学のWang Yanzhiの研究グループとウィリアムアンドメアリーカレッジのRen Binの研究グループは、コンパイラの知覚のためにCANAOと呼ばれるニューラルネットワーク構造最適化フレームワークを共同で提案しました。元のBERTモデルと同様の精度を維持しながら、彼らは成功しましたモデルサイズは4.8倍に縮小され、速度は5倍に高速化されます。

TensorFlow-Lite(TFLite)と比較すると、CANAOフレームワークは速度の点で7.8倍高速で、わずか45ミリ秒の遅延があり、携帯電話で初めて高精度(ほとんど精度を犠牲にすることなく)とリアルタイムの自然言語処理タスクを実現します。

彼らはCANAOを、精度と遅延の点でBERTベース、DistilBERT、およびMobileBERTの3つのモデルと比較しました。CANAOBERT w / o distill。は直接トレーニングされた小さなモデルです。CANAOBERTは知識蒸留を通じてトレーニングされたモデルです。CANAOBERTはNASを通じてモデルの幅をさらに最適化して得られたモデルです。


3つのCANAOモデルの遅延は、比較した3つのモデルよりも小さいことがわかります。BERTベースと比較すると、モデルはCPUおよびGPUでそれぞれ5.2倍および4.1倍高速であり、精度は0.5〜2%だけ低下します。MobileBERTと比較して、モデルはCPUおよびGPUでそれぞれ1.49倍および1.53倍速く、精度は0.4〜1%だけ低下します。

上の表は、コンパイラが認識したニューラルネットワーク構造最適化フレームワークがDistilBERT、BERTベース、およびCANAOBERTモデルに及ぼす影響を示し、TFLiteフレームワーク(モバイルCPUのみをサポート)と比較しています。CANAOフレームワークは、CPUとGPUで速度をそれぞれ2倍と2.4倍向上させることができます。最適化なしのBERTベースモデルはTFLiteで382ミリ秒で実行され、それらの圧縮モデルはCANAOフレームワークの下で最速45ミリ秒に達する可能性があり、7.8倍の速度向上です。

彼らの研究は、NLPモデルの深さとモデルの精度との関係の調査から始まりました。

現在、ほとんどの事前トレーニング済みのNLPモデルは非常に深くなっています。レイヤー数の計算から、BERTベースには1000以上のレイヤーがあり、バートラージとモバイルBERTには2000レイヤーがあるため、モバイル端末にデプロイすると計算遅延が大きくなります。

では、NLPモデルには本当に多くのレイヤーが必要なのでしょうか。必要に応じて、高遅延の問題を解決するにはどうすればよいですか?

モデルの深さとモデルの精度

まず、層の数について複数の比較実験を行いました。下の表に示すように、同じ計算量を前提として、それぞれ深いネットワーク構造と狭いネットワーク構造、浅いネットワーク構造と広いネットワーク構造を使用し、精度を比較して深さと正解率との関係は、これらのモデルはBERT大規模蒸留によって得られます。

実験結果を比較すると、同じ量の計算で、深さのあるネットワークの方が浅いネットワークよりも精度の点で優れていることがわかります。これは、NLPモデルのネットワークの深さの必要性もある程度示しています。

では、深度によって引き起こされる高遅延の問題を解決するにはどうすればよいでしょうか。

彼らは、CANAOコンパイラによって認識されるニューラルネットワーク構造最適化フレームワークを提案しました。

1.軽量多項式ベースのレイヤーフュージョン(軽量多項式ベースのレイヤーフュージョン)

2.コンパイラ対応のニューラルアーキテクチャ検索テクノロジ

軽量多項式に基づく層融合技術

これは、複数の計算層を効果的にマージして、複数のアクセス層によって引き起こされる計算遅延を大幅に削減する、コンパイラーベースの最適化手法です。

コンパイラー対応のニューラル構造検索テクノロジー

それらは、コンパイラー最適化情報をフィードバック情報としてニューラル構造検索ループに追加して、ネットワークモデルの協調的最適化を実現し、モデルが高精度と低レイテンシの両方を持つようにした最初のものです。

ネットワークレイテンシを使用してネットワーク構造を最適化するハードウェア対応のNASが提案されていますが、NASとコンパイラの最適化の間の接続がまだ不足しています。

たとえば、既存のハードウェアでサポートされているNAS:MnasNet、FBNet、ProxylessNASはすべて、汎用の非最適化コンパイラーを使用します。レイヤー数が少ないCVアプリケーションの場合、より良い結果が得られますが、数百または数千のレイヤーを持つネットワークでは、コンパイラーの最適化の支援なしに低レイテンシの目標を達成することは困難です。

また、CANAOコンパイラーが認識しているニューラルネットワーク構造最適化フレームワークにより、コンパイラーが最適化した後、検索されたモデルがコンピューティングリソースの高い使用率に対応できるようになり、高精度を維持することを前提にBERTタイプのモデルを実現できます。モバイルデバイスでのリアルタイム推論。

デモビデオについては、ステーションBをご覧ください。

[CoCoPIE Deep Learning] BERTを使用したモバイルでのリアルタイムの質問応答

https://www.bilibili.com/video/BV1Wp4y1a7RK

より技術的な詳細は記事で見つけることができます

https://arxiv.org/abs/2009.06823

結論

携帯電話の普及に伴い、携帯端末などのリソースに制約のあるデバイスでBERTモデルを使用する方法は、非常に困難な問題です。CANAOコンパイラが認識するニューラルネットワーク構造最適化フレームワークは、効果的なソリューションを提供します。BERTモデルの構造を最適化し、コンパイラ最適化の支援により、モバイル端末で高精度のリアルタイム自然言語処理を実現します。

著者について:

Wang Yanzhiは、ノースイースタン大学の電子コンピュータ工学科の助教授です。彼は、清華大学および南カリフォルニア大学の電子学部で学部および博士号を取得しています。彼の主な研究の方向性は、ディープニューラルネットワークの高速化とセキュリティです。彼らのCoCoPIE圧縮コンパイル協調最適化フレームワークは、モバイル端末上のほとんどのニューラルネットワークのリアルタイム推論を実現できます。彼の記事は、機械学習の方向AAAI、CVPR、ICML、ICCV、ICLR、IJCAI、ECCVなど、回路および設計自動化の方向DAC、ICCAD、ISSCC、FPGAなど、コンピューターシステムASPLOSなど、さまざまなトップ会議のトップジャーナルに広く掲載されています。 ISCA、MICRO、HPCA、CCS、VLDB、PLDI、ICS、PACTなど 彼の記事は7,200回以上引用され、Google、Mathworks、Intelなどから研究賞を受賞し、4つの最高の論文賞、10のノミネート、および複数のデザインコンペティション賞を受賞しています。彼の研究成果は広く報道され、メディアから400回以上引用されています。彼の生徒の多くは、コネチカット大学、クレムソン大学など、さまざまな学校で教職員を務めており、ワークユニットには、Google、Facebook、Tencent、Didi(超新星の従業員)が含まれています。

更多精彩推荐

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/108700970