ビデオコンテンツは、技術を学ぶの深さに基づいて検出されます

1.背景
カラットカラット(KilaKila)は、インタラクティブ・エンターテイメント・ソフトウェア・コンテンツ・コミュニティの若いユーザーに焦点を当てています。KilaKilaの打ち上げは、パーソナライズされた現在の若いユーザー、エンターテイメントのニーズの断片化を満たすために、ライブ対話型音声、ビデオの短い、フィクションの対話を備えています。情報過多の深刻なユーザーを引き起こした日々生成されたビデオ素材、膨大な量のを持っている短いビデオは、関心の独立したコンテンツの中から選択することは困難です。すべての消費者は、ビデオコンテンツの制作で、自分の仕事は、最大露出のために、より多くの志を同じくする人々を見ることができます願っています。しかし、短い映像シーンは、動画反復暴露は、閲覧繰り返し、繰り返し、ユーザーエクスペリエンスの低下をもたらし、さらには解約された重複UGCビデオコンテンツの大多数に表示されます。この記事では、映像コンテンツの重複検出サービスのアーキテクチャとエンジニアリングは、CNNの技術を学ぶプログラムの深さに基づいて与えられているの構築に焦点を当てています。オンラインサービス、80%の重複検出精度率後、映像コンテンツ配信効率を20%向上させます。

2の画像特徴記述方法
ビデオコンテンツは、ビデオフレームの処理、すなわち、ランダムサンプルのビデオクリップの最初のステップと理解すべきです。手段をビデオの異なる種類のポンプビデオ符号化フォーマット、フレームレート、ビットレート、ビデオ解像度とフレームの異なるタイプの、ビデオ全体の完全な意味で特徴付けビデオフレームのビデオキーフレームをポンピング、ビデオは、おおよそビデオによって一定時間間隔に分割されています実際のポンプと、特にフレームを描画する描画された画像フレームの内容に基づいて、フレームは、本明細書に深い学習用モデル特徴抽出画像フレームを取るCNNポンピングレンズフレームに基づいて動きフレームをポンピングに基づいて、クラスタに細分され、前記現在の主流モデルの比較より良いモデルパラメータの順序でデータのための訓練のための特徴抽出機能と特徴。
特徴記述子の伝統的な方法は、明らかに、特徴点の動きを見ることができ、エッジ(EDGE)のための特徴点と特徴を追跡するのに有益であり、領域(パッチ)のような無力となります。深さの学習方法は、リンクと高次元画像を扱いやすいローカル空間近隣画像(CNN)の特性を保持することができます。どのようなユーザーの観点から抽出された特徴を知らずため。練習ショーの多くは、学習の深さは、画像特徴抽出の面で明らかな利点を持っていること。

_1


図1:初期ネットワーク構造類似画像決意

図3は、学習モデル選択CNNの深さ
1)奥行き画像特徴抽出モデル(2D-CNN)の学習アルゴリズムは、
FFmpegのは、柔軟フレーム間隔選択ポンピング、時間のビデオキーフレーム、一定の間隔を抽出しました。CNNモデルの使用AlexNeバージョンは、1000年の原画像の特徴ベクトルの次元を処理します。深さを介して原画像データ入力は、モデル画像の特徴抽出を学習する必要があり、画像名に対応する番組の高次元データは、次の動作へのアクセスを容易にします。

_2


図2:高次元データ


2)抽出ビデオモデル)(3D-CNNの深さのアルゴリズムを学習特徴
FFmpegのは、単一の入力データとしてビデオクリップに応じたパラメータの妥当な数を選択します。C3Dは、高次元のベクトル表現を得るために、CNNモデルのビデオ機能のバージョンを使用しています。問題ベースのビデオ分析、2D畳み込みを効果的タイミングの情報を取得することはできません。3Dモデルは、画像特徴の三次元コンボリューションを用いて抽出することができるだけでなく、クリップを高次元ベクトルで表される時間的な特徴を抽出することができます。ビデオクリップの固定フレームクリップ。

_3


図III:2Dコンボリューション


_4


図IV:3Dコンボリューション


_5


図5:C3Dネットワーク構造モデル

3)抽出は、ビデオモデルのアルゴリズム深学習特徴
にFFmpegをビデオクリップパラメータに応じてメタデータの合理的な量として選択。ビデオの使用R2Plus1D版CNNモデルを得る、高次元のベクトル表現を備えています。三次元畳み込みは、ベースブロックResNetネットワークを使用して空間的および時間的畳み込み畳み込みに分解されます。モデルのスキルを向上させる量を増加させることなく、C3Dモデルパラメータを比較しました。

_6


図VI:)R3Dモデル畳み込みカーネルと、b)R2Plus1Dモデル畳み込みカーネル、ネットワークアーキテクチャR2Plus1DのR3Dモデルとモデル

図4に示すように、検索方法
1)取得するために、ハッシュアルゴリズム
永続ストレージに格納された抽出モデルのこの部分1000 CNN次元の特徴ベクトルは、完全なデータベース、Redisの増分データを格納され、動的に更新されたデータベースをRedisの。高次元ベクトル位置敏感ハッシュアルゴリズム(局所性鋭敏型ハッシュ)を行うためのLSHアルゴリズムクエリ映像の高次元の特徴ベクトルデータ空間の使用である。一実施形態その関連特徴ベクトルマッチングクエリ、ことを確実にするために各ピクチャ算出された特徴ベクトルの正規化に対応する今後のビデオは、後者の対応するビデオに最も類似各クエリ特徴ベクトルビデオデータベースを取得することです。
2)クラスタリングアルゴリズム
クラスタリング全体の探索空間を回避するための方法が、空間全体が分割され、いくつかの小さな部分空間に分割し、検索時には、ロックはここで、部分空間クエリベクトルに分類すべきです部分空間はトラバーサル問い合わせください。インデックスのサブクラスのスペースの数を増やすことで、検索精度を向上させます。

_7


図7:特徴ベクトルをクラスタリング

3)ベクトル量子化(ベクトルquantiation)プロセスは、符号化された表現の限られたサブセットに空間内の点を持つベクトルです。PQの典型的な生成物(商品量子化)定量した反転製品定量(IVFPQ)。PQ量子化製品:本質は、クラスタリングの方法です。

5、工学、建築映像重複コンテンツ検出サービスオプション
1)は、ビデオ検出システムアーキテクチャ再現(2D-CNN + LSHアルゴリズム)

_8


図VIII:2D-CNN LSHアルゴリズムのフローチャート+

2)ビデオ検査システムアーキテクチャ再現(3D-CNN +クラスタリングアルゴリズム)

_9


図IX:3D-CNN +クラスタリングアルゴリズムのフローチャート

おすすめ

転載: yq.aliyun.com/articles/739779