1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

2021-02-03 15:24:02

Heart of theMachineがリリースされました

機械編集部の心臓部

さあ、ファストハンド業界で最初の兆パラメータ推奨の細線モデルの内部構造にアプローチしてください。

パーソナライズされたレコメンデーションシステムは、ユーザーの行動データに基づいて「カスタマイズされた」製品エクスペリエンスを提供することを目的としています。正確なレコメンデーションシステムモデルは、多くのインターネット製品のコア競争力でもあります。Kuaishouは、全国レベルの短い動画アプリとして、毎日数百億の動画を数億人のユーザーに推奨しています。これには課題があります。推奨システムモデルは、ユーザーの興味をどのように正確に記述してキャプチャするのでしょうか。

今日の業界で使用されているソリューションは、通常、多数のデータセットとフィッティングパラメータを組み合わせて深層学習モデルをトレーニングし、モデルが現実に近づくようにします。Googleは最近、パラメータボリュームが1.6兆の最初の兆レベルのモデルSwitch Transformerをリリースしました。これは、以前にGoogleが開発した最大の言語モデル(T5-XXL)の4倍の速度です。

実際、高速処理の兆パラメータのファインアレンジメントモデルの総パラメータ量は1.9兆を超えており、規模が大きく、実用化されています。この記事では、快手ファインペーシングモデルの開発履歴を正式に紹介します。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

まず、左から右に比較チャートを見てください。

  • Google BERT-大規模なNLP事前トレーニングモデル:3億4000万のパラメーター
  • Google Meenaオープンドメインチャットボット:26億のパラメーター
  • Google T5事前トレーニングモデル:110億のパラメータ
  • OpenAI GPT3言語モデル:1750億のパラメーター
  • Google Switch Transformer言語モデル:16,000億個のパラメーター
  • 快手洗練された分類モデル:1.9兆個のパラメーター

パラメトリックパーソナライズされたCTRモデル-PPNet

2019年以前は、快手アプリは主に2列のウォーターフォールフローゲームプレイに基づいていました。ユーザーの操作と動画のクリックは、2段階の視聴によって区別されていました。この形式では、CTR推定モデルが特に重要になります。これは、ユーザーが表示されたビデオをクリックする意思があるかどうかを直接判断するためです。当時、業界の主流のレコメンデーションモデルは、DNNやDeepFMなどの単純な完全に接続されたディープラーニングモデルに基づいていました。ただし、特定のユーザーとビデオの共同構築セマンティックモデルには、グローバルユーザーの共同構築セマンティックモデルに基づいたパーソナライズされた偏差があることを考慮して、DNNネットワークパラメーターでさまざまなユーザーの一意のパーソナライズされた偏差を学習する方法チームの最適化の方向性をお勧めします。

音声認識の分野では、2014年と2016年に提案されたLHUCアルゴリズム(隠されたユニットの貢献を学習する)のコアアイデアはスピーカーの適応です。重要なブレークスルーの1つは、DNNネットワーク内の各スピーカーについて学習することです。特定の隠された異なる話者の音声認識効果を改善するためのユニット貢献(隠されたユニット貢献)。LHUCのアイデアから教訓を得て、快手推薦チームはファインランクモデルの実験を開始しました。最適化を何度も繰り返した後、推奨チームは、DNNネットワークパラメーターのパーソナライズを強化し、モデルを迅速に収束できるようにするゲーティングメカニズムを設計しました。快手はこのモデルをPPNet(Parameter Personalized Net)と呼んでいます Kuaishouによると、PPNetが2019年に稼働した後、モデルのCTRターゲット推定能力が大幅に向上しました。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

PPNet構造図

上の図に示すように、PPNetの左側は、現在の一般的なDNNネットワーク構造であり、スパースフィーチャ、埋め込み層、およびニューラル層で構成されています。右側には、ゲートNNと、ゲートNNのみを入力として提供するid機能を含む、PPNetの固有のモジュールがあります。その中で、uid、pid、aidは、それぞれユーザーID、写真ID、作成者IDを表します。左側のすべての機能の埋め込みは、すべてのゲートNNの入力としてこれらの3つのID機能の埋め込みと一緒にスプライスされます。左側のすべての特徴の埋め込みは、ゲートNNの逆伝播勾配を受け入れないことに注意してください。この操作の目的は、既存の特徴の埋め込みの収束に対するゲートNNの影響を減らすことです。ゲートNNの数は、左側のニューラルネットワークの層の数と同じであり、その出力は、ユーザーのパーソナライズされたバイアスを作成するための要素ごとの積としてのニューラルネットワークの各層の入力と同じです。ゲートNNは2層ニューラルネットワークであり、2層ネットワークの活性化関数は2 *シグモイドであり、その目的は、出力の各項目を[0、2]の範囲に制限し、デフォルト値にすることです。は1です。Gate NN出力がデフォルト値の場合、PPNetはネットワークの左側の部分に相当します。実験的な比較の後、ゲートNNを介して入力されたニューラルネットワーク層にパーソナライズされたバイアス項目を追加すると、モデルのターゲット推定能力を大幅に向上させることができます。PPNetはGateNNを使用して、DNNネットワークパラメータのパーソナライズされた機能をサポートし、ターゲットの推定能力を向上させます。理論的には、パーソナライズされた推奨、広告、DNNベースの強化学習など、DNNモデルに基づくすべての推定シナリオを使用できます。 。シーンなど。

多目的予測最適化-MMoEベースのマルチタスク学習フレームワーク

ショートビデオユーザーのニーズが高まり続ける中、快手は2020年9月にバージョン8.0をリリースしました。このバージョンでは、下部のナビゲーションバーが追加され、これに基づいて「機能」タブが追加されます。これは、上下の単一行の形式をサポートします。この互換性のある2列クリックおよび1列の上下バージョンは、ユーザーにより良い消費体験を提供し、より多様な消費方法を追加するように設計されています。新しいインターフェースでは、かなりの数のユーザーが2列と1列の両方を使用します。これら2つのページでのユーザーの消費パターンとインタラクション形式は大きく異なるため、データレベルで表現される分布も大きく異なります。モデルモデリングでデータの2つの部分をどのように使用し、それをうまく利用するかは、快手推薦チームにとって緊急の問題になっています。

快手チームは、単一ラインのビジネスシナリオの数が増えるにつれて、マルチタスク学習がより重要になることを発見しました。単一列のシナリオでは、ユーザーのインタラクション動作はショーによってユーザーに表示されるビデオに基づいており、2列のインタラクションのような非常に重要なクリック動作はありません。これらのインタラクティブな行動は比較的等しく、これらの行動の数は数十に上ります(時間に関連する推定目標、いいね、フォロー、再投稿など)。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

洗練されたモデルの推定対象(部分的)

モデルレベルから単一列のビジネスデータの量が増えるにつれ、チームは単一列のビジネス用に個別に最適化されたモデルを分離することをお勧めします。具体的には、機能レベルでは、デュアルカラムモデルの機能を完全に再利用できますが、シングルカラムの目標のために、追加のパーソナライズされたバイアス機能といくつかの統計値機能が追加されます。埋め込みレベルでは、初期段階の単一列データの量が少ないため、埋め込みの収束を保証できません。最初は、二重列データのクリック動作を使用してトレーニングを支配し、次に単一および二重の列ユーザーのビデオ表示動作(効果的な再生、長い再生、短い再生)は、トレーニングの埋め込みを支配するために使用されます。ネットワーク構造レベルでは、主に共有ボトムネットワーク構造トレーニングに基づいています。無関係なターゲットがタワーを占有し、関連するターゲットが同じタワーのトップレベルの出力を共有するため、ターゲットの推定効果をある程度向上させることができます。 。モデルがオンラインになった後、最初は一定の効果がありましたが、いくつかの問題がすぐに明らかになりました。まず第一に、それはシングルカラムビジネスとダブルカラムビジネスにおける埋め込み分布の違いを考慮に入れておらず、その結果、埋め込み学習が不十分になります。第二に、マルチタスク学習のレベルでは、単一列のシナリオでは、ユーザーの対話はすべて現在のビデオショーの単一段階の動作に基づいており、さまざまな目標が相互に影響します。モデルの単一の目標の改善必ずしも全体的なオンラインのメリットをもたらすとは限りません。

したがって、すべての推定目標を改善できるように、優れたマルチタスク学習アルゴリズムフレームワークを設計する方法は非常に重要です。このアルゴリズムフレームワークは、データ、機能、埋め込み、ネットワーク構造、および個々のユーザーインタラクションの特性を考慮する必要があります。徹底的な調査と実践の結果、推奨チームは、現在のモデルを改善するためにMMoEモデル(Multi-gate Mixture-of-Experts)を採用することを決定しました。

MMoEは、Googleが提案する古典的なマルチタスク学習アルゴリズムです。その中心的なアイデアは、共有ボトムネットワークをエキスパートレイヤーに置き換え、複数のゲートネットワークを介して複数のエキスパートネットワーク上のターゲットごとに異なるエキスパートネットワークの重みを学習することです。フュージョン特性評価を実行します。 、およびこの融合特性に基づいて、タスクネットワークを介して各タスクを学習します。

MMoEアルゴリズムと上記の迅速な推奨シナリオの難しさを参照することにより、推奨チームはMMoEアルゴリズムを変更し、新しいマルチタスク学習アルゴリズムフレームワークを設計しました。具体的には、機能レベルで、セマンティック統合が実行され、シングル列およびダブル列サービスのセマンティック不整合機能が修正され、シングル列のユーザーに関連する機能が追加されました。埋め込みレベルでは、空間の再マッピングが実行され、埋め込み変換レイヤーは、単一列と二重列の埋め込みマッピングの関係を直接学習して、単一列と二重列の埋め込みが統一された空間分布にマッピングされるように設計されています。機能の重要度レベルでは、スロットゲーティングレイヤーは、さまざまなビジネスの機能の重要度を選択するように設計されています。

上記の3つの変更により、モデルは機能セマンティクスからの入力レイヤーの埋め込みを表します。埋め込みはさまざまなサービスに分散され、機能はビジネス上の重要性が異なる3つのレベルで正規化および正規化され、統合された機能表現空間に再マッピングされます。 MMoEネットワークを作成すると、この空間内の複数のタスク間の事後確率分布の関係をより適切にキャプチャできます。このMMoEの改善により、モデルのすべての目標が大幅に改善されました。

短期行動シーケンスモデリング-Transformerモデル

快手のファインランキングモデルでは、ユーザーの過去の行動特性が非常に重要であり、ユーザーの関心の動的な変化を適切に表現しています。迅速な推奨シナリオでは、ユーザーの行動機能は非常に豊富で変更可能であり、その複雑さはビデオ機能やコンテキスト機能をはるかに超えています。したがって、ユーザーの行動シーケンスを効果的にモデル化できるアルゴリズムを設計する必要があります。

現在、業界におけるユーザー行動シーケンスのモデリングは、主に2つのモードに分けられます。1つはユーザーの過去の行動に加重和を実行するモードで、もう1つはRNNなどのモデルを介して時系列モデリングを実行するモードです。快手初期の2列のファインランキングモデルでは、ユーザーの行動シーケンスは、モデル入力としての単純な合計プーリングです。単一列のシナリオでは、ユーザーは快手推奨のビデオを受動的に受信し、カバー情報を失った後、フィードバックを与える前に一定期間ビデオを見る必要があるため、アクティブなビデオ選択権が減少し、 E&E(Exploit&Explore)を行うための推奨システムに適しています。

Kuaishouのシーケンスモデリングは、Transformerモデルに触発されています。Transformerモデルは、2017年にGoogleによって提案された古典的なニューラルネットワーク変換モデルです。その後、人気のあるBERTとGPT-3も、このモデルの構造の一部に基づいています。Transformerには、主にエンコーダーとデコーダーの2つの部分があります。エンコーダー部分は入力言語シーケンスをモデル化します。この部分はユーザー行動シーケンスモデリングの目標と非常によく似ているため、Kuaishouはアルゴリズム構造から学習し、計算量を最適化します。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

MMoEをTransformerと組み合わせて、ユーザーの関心シーケンスをモデル化します

まず、Kuaishouは、チームがユーザーのビデオ再生履歴を一連のアクションとして使用することをお勧めします。候補シーケンスには、ユーザーのロングプレイ履歴シーケンス、ショートプレイ履歴シーケンス、ユーザークリック履歴シーケンスなどが含まれます。このタイプのリストには、ユーザーの視聴ビデオID、作成者ID、ビデオ期間、ビデオタグ、ビデオ視聴期間、ビデオ視聴が徹底的に記録されます。時間など。コンテンツ、ユーザーの視聴履歴の完全な説明。次に、位置の埋め込みを置き換えるために、ビデオ視聴時間へのログ変換を行います。快手推奨シナリオでは、ユーザーの短期的な視聴行動は現在の推定とより関連性があり、長期的な視聴行動はユーザーの複数の関心の分布をより反映し、ログ変換の使用はこの相関関係をより適切に反映できます。最後に、マルチヘッドの自己注意をマルチヘッドのターゲット注意に置き換え、現在の埋め込みレイヤーの入力をクエリとして使用します。この設計の目的には2つのポイントがあります。1つは、現在のユーザー特性、推定ビデオ特性、およびコンテキスト特性が、単一のユーザー行動シーケンスよりも多くの情報を提供することです。次に、計算量をO(d * n * n * h)からO(d * n * h + e * d)に簡略化できます。ここで、dは注意の次元、nはリストの長さです。 、およびhはヘッドの数です。e* dは、埋め込み層の次元を注意の次元に変換するために必要な複雑さを特徴づけます。

変換されたTransformerネットワークは、モデルの推定機能を大幅に向上させることができます。オフライン評価では、ユーザーの総再生時間の推定が大幅に向上し、オンラインユーザーの総再生時間も大幅に向上しました。

長期金利モデリング

長い間、快手のファインランキングモデルは、ユーザーの最近の行動を使用する傾向がありました。前述のように、トランスフォーマーとMMoEモデルを使用することで、高速なファインランキングモデルはユーザーの短期的な利益を正確にモデル化し、非常に大きなメリットを実現しました。以前のモデルでは、ユーザーの最近の数十の履歴動作がモデリングに使用されていました。短いビデオ業界の特性により、最近の数十の過去の行動は、通常、短期間にのみユーザーの関心を表すことができます。これにより、モデルはユーザーの短期的な行動に過度に依存するようになり、ユーザーの長期的な関心のモデリングが不足します。

快手推薦チームは、快手のビジネス特性を考慮して、ユーザーの長期的な関心をモデル化し、ユーザーの長期的な履歴をモデルが認識できるようにしました。Kuaishou推奨チームは、ユーザーのインタラクション履歴シーケンス(再生、いいね、フォロー、再投稿など)を拡張した後、そのような動作が比較的まばらであっても、モデルが潜在的なユーザーの関心をより適切に捉えることができることを発見しました。この機能に対応して、レコメンデーションチームは、以前のモデルに基づいてユーザーの超長期金利モデリングモジュールを設計および改善しました。これにより、ユーザーの行動を数か月から1年まで、およびユーザーの行動シーケンスの長さを包括的にモデル化できます。 1万に達することができます。このモデルはすべてのビジネスで推進されており、オンラインで大きなメリットをもたらしています。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

利口ユーザーの長期金利ファインランキングモデルの構造の概略図

何兆もの機能、何兆ものパラメータ

モデルの反復に伴い、深層学習ネットワークの複雑さがますます高くなり、モデルに追加される機能の数も増加し、モデルの機能スケールのサイズも洗練されたモデルの反復を制限します。これにより、モデル機能のスケールが制限され、一部の機能が削除され、モデルの収束が不安定になるだけでなく、モデルが低頻度の機能を削除しやすくなり、オンラインのコールドスタート効果が低下します(新しいビデオ、新規ユーザー)、ロングテール動画や新規ユーザーには十分な友好的ではありません。

この問題を解決するために、快手推薦とアーキテクチャの学生はトレーニングエンジンとオンラインサービスを改善し、オフライントレーニングとオンラインサービスサービスを構成された機能量に応じて柔軟に拡張できるようにしました。これにより、ファインランク付けモデルをサポートできます。オフラインとオンライン。10億の機能、数兆のパラメータの規模。特に、新しいモデルは、新しいビデオと新しいユーザーのトラフィック分布により親しみやすく、新しいユーザーと新しいビデオの指標が大幅に改善されています。これは、快手推奨の「包括性」の概念を実装しています。現在の快手罰金-ランキングモデル、総特徴量は1,000億を超え、モデルの総パラメータ量は1.9兆を超えています。

オンライントレーニングおよび見積もりサービス

推奨シナリオで数千億の機能モデルのオンライントレーニングとリアルタイム推定をサポートするために、推奨チームはトレーニングフレームワークとオンライン推定サービスのパラメータサーバーを変更しました。レコメンデーションモデルのオンライン学習では、埋め込みを格納するパラメータサーバーが、トレーニングと推定の効率を向上させるために、メモリの使用を正確に制御できる必要があります。この問題を解決するために、推奨チームは、競合のない、メモリ効率の高いグローバル共有埋め込みテーブル(Global Shared Embedding Table、GSET)パラメーターサーバーの設計を提案しました。

1.9兆個のパラメーター量、業界初の1兆個のパラメーター推奨ファインラインモデル

 

埋め込みベクトルにマップされた各IDは、まもなくマシンのメモリリソースをいっぱいにします。システムを長期間実行できるようにするために、GSETは、カスタマイズされた機能スコア除去戦略を使用して、メモリフットプリントを常に低く制御します。事前設定されたしきい値より。LFUやLRUなどの従来のキャッシュ除去戦略は、エンティティの外観の頻度情報のみを考慮し、主にキャッシュのヒット率を最大化するために使用されます。特徴スコア戦略では、機械学習シナリオの追加情報を考慮して、特徴の排除を支援します。

レコメンデーションシステムのオンライン学習プロセスでは、多数の低頻度IDがシステムに入力されますが、これらの低頻度IDは通常、将来の見積もりには表示されません。システムは、これらの機能を受信した後、すぐにそれらを削除する可能性があります。低頻度IDの無意味な入力と削除がシステムのパフォーマンスに影響を与えるのを防ぐために、GSETは、低頻度の機能をフィルタリングするためのいくつかの機能アドミッション戦略をサポートしています。同時に、GSETの効率を改善し、コストを削減するために、Kuaishouは新しいストレージデバイスである不揮発性メモリ(Intel AEP)も採用しました。不揮発性メモリは、1台のマシンに数テラバイトのおおよそのメモリレベルのアクセス速度を提供できます。この種のハードウェアに適応するために、推奨チームは、GSETをサポートするために基盤となるKVエンジンNVMKVを実装し、兆パラメータモデルのオンライン安定性を確保しました。

未来に目を向ける

快手レコメンデーションアルゴリズムの責任者であり、Google Researchの元スタッフリサーチマネージャーであるソンヤン博士によると、ショートビデオ業界には独自の課題があり、それは多数のユーザー、大量のビデオに現れています。アップロード、作品の短いライフサイクル、ユーザーの関心の急速な変化、その他多くの側面。したがって、短いビデオレコメンデーションが従来のビデオ業界の洗練された操作を模倣することは困難であり、タイムリーかつ正確な方法でビデオを配信するためにレコメンデーションアルゴリズムに依存する必要があります。Kuaishouレコメンデーションアルゴリズムチームは、ショートビデオサービスを深くカスタマイズし、積極的に革新してきました。業界初のレコメンデーションモデルとアイデアを数多く提案しました。同時に、レコメンデーションエンジニアリングアーキテクチャチームに多くのシステムとハードウェアの課題をもたらしました。

Song Yang博士は、高速で上位の兆パラメータモデルは、レコメンデーションシステムの画期的な進歩であり、シーケンスモデル、長期および短期の金利モデル、ゲートモデル、および専門家の利点を組み合わせていると考えています。モデル。これは、業界で最も先進的なモデルです。最も包括的で効果的な推奨モデルの1つです。このモデルは、快手の本業でユーザーにサービスを提供するために完全に発売されました。将来的には、「アルゴリズム・システム・ハードウェア」の三位一体の課題や機会が増える可能性があり、これにより、クアイショウレコメンデーションシステムの技術革新と飛躍的進歩がさらに促進され、ユーザーエクスペリエンスが向上し、ユーザーの価値が創造されることが期待されます。

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/113818220