「人工知能開発報告書2019」!完全なレポートをダウンロードするには、テキスト添付のリンクのコンピュータ視覚的な深さの解釈

この抜粋「人工知能開発報告書2019」コンピュータビジョンの第III章の記事では、コンピュータビジョンは歴史、人材プロファイルの現在の進行状況の解釈の深さ、読書の論文、およびコンピュータビジョンの概念を包含する。
報告書は393、詳細に十分である、レポートをダウンロードしたい、突くしてくださいリンク:https://yq.aliyun.com/download/3877

3.1コンピュータビジョンのコンセプト

コンピュータビジョン(コンピュータビジョン)、名前が示すように、分析することである、研究では、人間のような科学的研究[3]の目「見た目」を達成するために、コンピュータの知性をしましょう。それは理解し、達成するために、インテリジェントなコンピュータに依存している特定の三次元三次元の世界の客観的存在です。むしろ、コンピュータビジョン技術は、ビデオカメラの使用があると、コンピュータが人間の目を交換するためにコンピュータを起こしている人間の目セグメンテーション、分類、識別、追跡、識別および意思決定機能を備えています。要するに、コンピュータビジョンシステムが必要とされる「情報」を取得するために、データまたは2D画像3D立体画像の3次元平面を完了することができ、人工知能システムを作成することです。

コンピュータビジョン技術が含まれるコンピュータ科学と工学、神経生理学、物理学、信号処理、認知科学は、数学と統計や他の多くの科学分野の包括的な科学技術を適用しています。インテリジェントなアルゴリズムに基づいて、情報システムを迅速にデータや大量の情報を取得することができる高性能コンピュータに基づくコンピュータビジョン技術に基づいており、迅速に処理することができるため、だけでなく、簡単な情報と制御情報統合プロセスを設計します。

、物体の識別および検出を(オブジェクト検出)、意味論的分割(セマンティックセグメンテーション)移動及びトラッキング(モーション・トラッキング)、ビジュアルQ(ビジュアル質疑:コンピュータビジョン自体は、多くの異なる研究、比較のベースとなるトップ方向を含みます[4])答えます。

物体認識と検出

コンピュータビジョンにおける物体の検出は常に、非常に基本的かつ重要な研究方向となっているアルゴリズムや深さを学んで新しいネットワーク構造のほとんどは、年間imagenetデータセットに、などVGGネット、GoogLeNet、ResNet、などのアプリケーション内のオブジェクトの検出に最初のものです上記のすべての新しいアルゴリズムは常に存在している新しいレコードを設定し、歴史を打破するために何度も何度も出てくると、これらの新しいアルゴリズムやネットワーク構造はすぐに、今年のホットスポットになり、コンピュータビジョン内の他のアプリケーションへの応用が改善されます行きます。

検出および物体認識は、定義により、すなわち、入力画像が与えられると、一般的なアルゴリズムが自動的に画像内のオブジェクトを識別し、それらのカテゴリの位置とアウトを出力することができます。もちろん、また、顔検出(顔検出)、車両検知(Viechle検出)などの検出アルゴリズム細かい分類として誘導体。

セマンティックセグメンテーション

セマンティックセグメンテーションは近年非常に人気があり、方向は、簡単な言葉で、それは実際には特別なように分類することができます - 入力画像の各画素は、あなたが明確に記述することができます絵で、分類されています。明瞭に見ることができる、物体の検出および同定は、一般的に、元の画像に枠オブジェクトであり、「マクロ」上のオブジェクト、およびセマンティックセグメンテーションは、画素毎に画像の各画素に分類されているといえます彼らは自分自身のカテゴリを持っています。

運動とトラック

近年では、以前の非うるうアルゴリズムの深さから学習アルゴリズムの深さにメソッドの非常に十分な開発であった、コンピュータビジョンの分野における基本的な問題のいずれかに属しも追跡、精度もますます高くなってますが、リアルタイムの深さ学習追跡アルゴリズムは、精度、スピードを向上させることが困難であった、実用的な用途で重宝するのは困難であるので、精度は、十の非常に高いと遅い追跡アルゴリズムです。

後続のビデオ追跡アルゴリズムが積極的ビデオから追跡対象を見つけるために見る必要がここで与えられたビデオ、最初のフレームとスケールの大きさで追跡される物体の所定の位置に主に追跡産学治療基準位置、及び様々な照明変換、モーションブラーと明らかな変化に適応します。しかし、実際には、そのような車を追跡するよう、トレース不良設定問題(病気設定問題)であるあなたは、車の尾から追跡を開始した場合、車両が見かけ上の大きな変化を移動するプロセスである場合には、そのような回転180度の変化として場所を、撮影してきました彼らは主にモデルの最初のフレームを学ん基づいているため、その後の追跡プロセスであって更新されますが、その後の追跡アルゴリズムを既存の大きな可能性は、トレースにあり、側面になりましたが、限られた学習サンプルとき追跡対象オブジェクトの外観、それは良いの追跡モデルを得ることが困難小さすぎるされて大きな変化が生じている、適応することは困難です。だから、今のところ、追跡が実際にコンピュータビジョンで特に人気の高い研究方向ではない、多くのアルゴリズムは、検出または認識アルゴリズムから改善されています。

Q&ビジョン

Q&ビジョンは、ユーザにより、入力画像に応じ目指し、研究の方向は質問をすると、アルゴリズムが自動的にコンテンツに基づいて質問に答えるVQA(ビジュアル質問応答)は、近年では非常に人気があります言及しました。Qに加えて、コンピュータ画像の説明テキストが自動的に画像に基づいて生成される、すなわちヘッダ生成アルゴリズム(字幕生成)と呼ばれるアルゴリズムは、Q.することなく、あります 二つのデータ形式(例えば、テキストと画像)を横断するためのそのようなアルゴリズムは、時々、マルチモーダルまたはクロスモダリティの問題であってもよいと呼びます。

コンピュータビジョン3.2開発の歴史

人々は開始時間とコンピュータビジョンの規律の歴史上の異なる見解を持っているが、それは1982年に、言われるべきであるが、(マー、1982)マルタ(デイビット・マー)「視覚的」本は出てくる、コンピュータビジョンをマーキングなりました独立した規律。コンピュータビジョンの研究は、大きく分けて2つのほとんどのビジュアルオブジェクト(オブジェクトビジョン)と視覚的なスペース(空間的なビジョン)に分けることができます。ビジュアルオブジェクトと判断したオブジェクトの細かい分類や差別、そのオブジェクトおよび形状の視覚的および空間的な位置、「アクション(行動)」サービス。有名な認知心理学者のJJGibsonが言ったように、ビジョンの主な機能は、「彼らの動きを制御するために、外部環境に適応すること」です。環境に適応し、独自の動きを制御するために、生物学的生存を求め、これらの機能は、ビジュアルオブジェクトに依存する必要があり、空間的な視覚的な調整は完了です。

それは理論と方法が、一般的に言っ数を作ったものの、コンピュータビジョンの発展の40年は、コンピュータビジョンは、3つの主要なコースを経験してきました。すなわち:マールビジュアルコンピューティング、ジオメトリおよび視覚学習として、多層三次元再構成。これは、次の3本の簡単な紹介[5]の主な内容になります。

マービジュアル・コンピューティング(計算ビジョン)

今では多くのコンピュータビジョンの研究者は、私は怖い、「マービジュアル・コンピューティングは、」私はこれは非常に残念なことであると言って、理解していません。現時点では、コンピュータは、物体認識の精度を向上させるために「深層ウェブ」を提起で等しくなるようだ「ビジョン研究。」実際には、マーは、両方の理論と研究方法論のビジョンに、前方に置くビジュアル・コンピューティングは、画期的な意義を持っています。

計算とアルゴリズム、およびアルゴリズムの表現の理論:マーのコンピュータビジョンは、3つのレベルに分かれています。マルタは信じているので、マルタ、ビジュアル・コンピューティングの理論は「計算理論」との2つの部分に焦点を当てたようなアルゴリズムは、アルゴリズムの機能と効果には影響を与えない「という表現とアルゴリズム。」マルタはどんな議論ではありません「アルゴリズム」マルタので、脳の神経回路の計算数値とコンピュータが、違いはありませんと考えています。神経科学の進歩から、今数値計算で、「ニューラルコンピューティング」を参照し、いくつかのケースでは、このような、「数値の」缶「シミュレートニューラルコンピューティング(脳形態は、コンピューティング)を計算するが、一般的に言ってのニューロモルフィック電流上昇として、本質的な違いがあります。 " 今から、少なくとも、「異なるアプローチがアルゴリズム」で視覚的な理論のマルタ不可欠な属性の計算には影響を与えません。

マルチビュージオメトリと層状3次元再構成

次の2つの要因が主な原因さらに「繁栄」に「うつ病」から1990年代初期のコンピュータビジョンでは:まず、高精度のアプリケーションと堅牢性の要件を目的とした「産業応用」要件ゴー高すぎます高すぎる、特にまさにそのような遠隔ビデオ会議(電話会議)、考古学、バーチャルリアリティ、ビデオ監視などなどのアプリケーションの「視覚効果」する必要はありませ。一方、多視点幾何学理論における層状3次元再構成を効果的に3次元再構成の堅牢性と精度を向上させることができることがわかりました。

INRIAフランスO.Faugeras、A.Zisserman R.Hartelyオックスフォード大学とGEのアメリカアカデミーの最初の数の多視点幾何学の代表的な人物。それは指摘しておかなければ、2000年にマルチビュー幾何学の理論は、基本的には完璧でした。書籍(ハートリー&Zisserman2000)の2000ハートレイとZisserman共著者で、この点でのコンテンツはシステムの概要比較を与え、その後、この分野での作業はどのように改善するかに焦点を当てた「大規模データの効率計算堅牢な復興を。」

ビッグデータは自動リビルドおよび自動最適化が必要です繰り返し、繰り返し最適化は、コンピューティングリソースの多くを取る必要があります。だから、堅牢性の前提の下で大規模なシーンの迅速な3次元再構成を保証するために、どのように後半の焦点があります。あなたは北京の中関村地区の3次元再構成が必要な場合は簡単な例として、復興の整合性を確保するために、地上の多くとUAVの画像を取得する必要があります。接地10,000高解像度画像(4000×3000)を獲得した場合、5 UAV千枚の高解像度画像(8000×7000)(これは典型的なスケールの現在の画像サイズである)に一致する画像の、3次元再構成そこから画像の適切なセット、および三次元構造のカメラキャリブレーションおよびシーン再構成の位置情報を選択するために、データのような大規模な量が、手動介入は、全体の3次元再構成プロセスは完全に自動化されなければならない、ことが可能です。これは、再構成アルゴリズムとシステムがそうでなければ、我々は完全自動3次元再構成できなかった、非常に高い堅牢性を持っている必要があり。堅牢な保証、3次元再構成効率の場合は、それも大きな課題です。したがって、この分野での現在の研究の焦点は、迅速かつ確実に大規模なシーンを再構築する方法です。

視覚ベースの学習

視覚ベースの学習、コンピュータビジョンの研究は、主な技術的手段として、機械学習を指します。一般的に2つの段階に分け、視覚的学習に基づく文献:マニホールド学習部分空間法、この世紀の初め、現在は深い方法の視覚的表現を学んで表現。

表現オブジェクトは、オブジェクトの分類および認識の異なる表情の異なる顔画像として中核オブジェクト認識、オブジェクトの所与の画像です。さらに、画像のピクセルを直接「過剰発現」と表現、また良好な発現です。その「内部マニホールド」(固有マニホールド)対象物の画像の存在は、内部マニホールドは、表現のオブジェクトの品質であることをマニホールド学習理論。したがって、学習処理は、画像表現から発現マニホールド学習固有のマニホールドである、そのような内部マニホールド学習プロセスは、一般に、非線形最適化法です。データと計算能力の高い蓄積に主に起因する深い学習の成功、。概念的には、1980年代におけるネットワークの深さは、それがとても大きな発展を得ることはありません、「浅いネットワーク」としてその「深層ウェブ」のパフォーマンスではないとして良いことが判明したという理由だけで、育てていました。

コンピュータビジョンに関する国際会議(ICCV)、コンピュータビジョン(ECCV)とコンピュータビジョンとパターン認識会議(CVPR)に関する欧州会議:小さなコンピュータビジョンは、コンピュータビジョンの3回の主要な国際会議であることができる潜在的なアプリケーションの詳細な研究であり、あるようです最近、一般的に見られるの論文を発表。現在の基本的な状況は、人々がコンピュータビジョンの「置換」の伝統的な方法に深い学習の利点を取っているということです。「研究者は」本当に異常である「機械調整プログラム」、となっている「大運動。」万有引力、マクスウェルの電磁方程式、アインシュタインの質量 - エネルギー方程式、量子力学のシュレーディンガー方程式、人々が追求すべきと思われます。

タレントの3.3の概要

グローバル人材の分布

学者マップは、研究を行うために学者、学者の特定の領域の分布を記述する地域の競争力の状況を分析するために使用される番組以下、特に重要なのは、世界的な学者であるコンピュータビジョンの分布:

画像


コンピュータビジョンの図3-1学者世界的な販売


マップは、色より学術フォーカス暗いを表す現在の学術機関位置の発足に描かれています。マップからわかるように、米国と主に東と西の海岸での明白な才能の利点の数;アジアはまた、主に中国東部、韓国と日本では、より多くの才能の分布を持っています。主に中央および西ヨーロッパでは、ヨーロッパで才能を、他のこうしたアフリカや南アメリカの一部として学者は非常にまれであり、広く地域の経済状況一貫した強さを持つコンピュータビジョンにおける科学技術人材の分布。

また、性別の観点から、コンピュータビジョンの研究者では男性が女性の学者の9.0%を占め、91.0パーセントを占め、研究者たちは、女性の学者よりも男性を占めました。

コンピュータビジョン学者のH-屈折率プロファイルは、区間20-30、706のH-インデックス番号の最大値は34.7%を占め、前記中間領域において、最も学者h指数分布、少ない20より、以下に示します最小間隔の数は、81人がいます。

画像

中国TALENT

画像


コンピュータビジョンの分野における当社の専門家は、以下に示すように分布します。私たちは、次の図で見ることができ、珠江デルタと長江デルタ地域に続いて、当北京と天津の人々の最大の数は、対照的に、内陸部ではより多くの希少な才能、流通や場所などの要因や経済状況のレベルです無関係ではありません。同時に、特に日本と韓国、東南アジアなど他のアジア諸国に比べ学者の数によって、コンピュータビジョンの分野では、学者の比較的多数の中国の中国の近隣諸国の状況を観察しています。

中国国際協力

コンピュータビジョンにおける中国とその他の国の間の協力は、紙の統計単位の作者を通じて、著者はそれぞれの国にマッピングされ、AMiner GETデータプラットフォームに応じて分析した後、中国およびその他の国間の協力の記事の数、及び協力に基づいてカウントすることができます次の表に示すように掲載された論文の数は、ハイからローにソートされています。

画像


同時に、中国と世界の地域間の協力は非常に広く、前;として、論文の数中米協力、コンピュータビジョンの分野における中国と米国との間の緊密な協力があることを示す参照番号、先の学者の数は、テーブルのデータから見ることができます10はヨーロッパ、アジア、北アメリカ、オセアニアでのパートナーシップが含まれています。中国とカナダの間で論文協力の数、ではないが、最大はなく、協力の品質上の引用の記述カナダの協力の最高の平均数は、より高いレベルに達しています。

紙の3.4解釈

この分野の発掘では、高レベルの学術会議論文のこのセクションでは、これらの会議2018年の解釈 - ワーキング部分表現2019。会議には含まれています:

コンピュータビジョンとパターン認識に関するIEEE会議
コンピュータビジョンのIEEE国際会議
コンピュータビジョンに関する欧州会議

我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图。其中,计算机视觉(computer vision)、图像(images)、视频(videos)是本领域中最热的关键词。

画像

论文题目:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割

论文作者:Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam

论文出处:Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.

论文地址:https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49

研究问题:
语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。在深度学习语义分割任务中经常会使用空间金字塔池化和编码-解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—DeepLabv3+。

研究方法:
如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。编码器模块(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。而简单而有效的解码器模块则沿对象边界调整分割结果。

为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。

画像

研究结果:
以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。在PASCAL VOC 2012和Cityscapes数据集上证明了DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。但是对非常相近的物体(例如椅子和沙发)、严重遮挡的物体和视野极小的物体较难进行分割。

论文题目:MobileNetV2: Inverted Residuals and Linear Bottlenecks

中文题目:MobileNetV2: 反向残差和线性瓶颈

论文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh

论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018

论文地址:https://ieeexplore.ieee.org/document/8578572

研究问题
在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型——MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。此外,通过简化的DeepLabv3构建移动端语义分割模型—Mobile DeepLabv3。

研究方法:
MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。其包含两个主要的技术:深度分离卷积和残差模块。

深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。

我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。也就是说,深度卷积层中所有单个通道的像素,其中编码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。通过分析作者得到两个属性:

(1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;
(2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。

基于以上两个观点,帮助作者优化现有的神经网络结构:假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。

画像

研究结果:
研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。在目标检测任务上,MNetV2+SSDLite与MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。

论文题目:The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

中文题目:深度特征作为感知度量的有效性

论文作者:Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver

论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018

论文地址:https://ieeexplore.ieee.org/document/8578166

研究方法:
对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的,但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。

当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。

近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。

研究方法:
对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的, _但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。

当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。

但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。

画像

研究方法:
为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究者们构造了一个人类感知相似性判断的新数据集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 数据集)。该数据集包括484K 个人类判断,具有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN 模型的失真,例如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去模糊等真实应用。

论文用如下公式计算在给到一个网络时,参考和失真图像块的距离。首先提取特征,然后将通道维度的激活归一化,用向量缩放每个通道,并采用2 距离。最后对空间维度的所有层取平均。

画像

研究结果:
作者进行了大量的实验,系统地评估了不同网络结构和任务中的深度特征, _并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。更令人惊讶的是,该结果不仅限于ImageNet 训练的VGG 提取的深度特征,而且还适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。

论文题目:Residual Dense Network for Image Super-Resolution

中文题目:基于残差密集网络的图像超分辨率重建

论文作者:Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu

论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018

论文地址:https://ieeexplore.ieee.org/document/8578360

研究内容:
单幅图像超分辨率(SISR)旨在通过其退化的低分辨率(LR)观测结果生成视觉上令人愉悦的高分辨率(HR)图像。最近,深度卷积神经网络在图像超分辨率重建方面取得了巨大的成功,网络的不断加深使模型能提供丰富分层特征,图像中的目标具有不同的比例、视角和宽高比,来自非常深的网络的分层特征能为重建提供更多线索。但是,大多数基于卷积神经网络的深层图像超分辨率模型都没有充分利用原始低分辨率(LR)图像中的分层特征,以致获得了相对较低的性能。在本文中,研究者提出了一种新颖的残差密集网络(RDN)来解决图像超分辨率中的上述问题,使模型能充分利用所有卷积层提取的分层特征。

研究方法:
如下图是残差密集网络RDN,主要包含四部分:浅层特征提取网络(SFEnet)、残差密集块(RDBs)、密集特征融合(DFF)和上采样网络(UPNet)。

一个非常深的网络直接提取LR 空间中每个卷积层的输出是困难且不切实际的,所以使用残差密集块(RDB)作为RDN 的构建模块。RDB 由密集连接层和具有局部残差学习能力的局部特征融合(LFF)组成。RDB还支持RDB之间的连续存储,一个RDB的输出可以直接访问下一个RDB中每一层,形成连续的状态传递。RDB中的每个卷积层都可以访问所有后续层,并传递需要保留的信息。局部特征融合将先前的RDB和当前RDB中所有先前层的状态连接在一起,通过自适应保留信息来提取局部密集特征。LFF通过更高的增长率来稳定更宽网络的训练。在提取多层局部密集特征后,进一步进行全局特征融合(GFF),以全局方式自适应地保留分层特征。在RDN中每个卷积层卷积核大小为3×3,局部和全局特征融合卷积核大小为1×1。在上采样部分使用ESPCNN提升图像的分辨率。

画像

研究结果:
使用DIV2K数据集中全部的800幅训练图像训练模型,测试选用5个标准基准数据集:Set5、Set14、B100、Urban和Manga109。为了全面地说明所提方法的有效性,模拟了三种图像退化过程:
(1)双三次下采样(BI);
(2)高斯核模糊HR图像,再下采样(BD);
(3)先双三次下采样,再加入高斯噪声(DN)。

作者进行了大量的实验发现:
(1)RDB数量或RDB中卷积层数量越多,模型性能越好;增长率越大也会获得更好的性能。当上述模块使用数量较少时RDN依然比SRCNN性能好。
(2)进行了消融实验,验证了所提模型中连续存储、局部残差学习和全局特征融合的有效性。
(3)在三种退化模型上与六种先进的模型进行了对比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和数据集中,RDN都表现出了相近甚至更好的性能。

论文题目:ShuffleNet V2: Practical guidelines for efficient cnn architecture design

中文题目:ShuffleNet V2:高效CNN网络结构设计实用指南

论文作者:Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian

论文出处:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – _ECCV 2018 - 15th European Conference, 2018, Proceedings

论文链接:https://link.springer.com/chapter/10.1007%2F978-3-030-01264-9_8

研究内容:
自AlexNet之后,ImageNet图像分类准确率被很多新的网络结构如ResNet和DenseNet等不断提高,但是除准确率外,计算复杂度也是CNN网络需要考虑的重要指标。实际任务通常是要在有限的计算资源下获得最佳的精度,过复杂的网络由于速度原因难以在移动端等设备中应用。

为此,研究者们提出了很多轻量化的CNN网络如MobileNet和ShuffleNet等,在速度和准确度之间做了较好地平衡。以往的移动端CNN网络结构设计在考虑计算复杂度时,直接致力于优化整体网络计算所需的FLOPs,并没有考虑真正关心的速度和延迟,且具有相似FLOPs的网络速度也是不同的。像内存访问开销(MAC)、计算平台等也是需要考虑的方面。为了实际需求,本文研究者不局限于追求理论FLOPs的减少,从更直接的角度为轻量化网络设计提供指导意见。

研究方法:

画像

作者建议有效的网络结构设计应考虑两个原则。首先,应使用直接指标(例如速度)代替间接指标(例如FLOP)。其次,应在目标平台上评估此类指标。通过对两个代表性最新网络的分析,作者得出了关于有效网络设计的四项准则:

(1)卷积层的输入和输出特征通道数相等时MAC最小;
(2)过多的组卷积会增大MAC;
(3)网络碎片化会降低并行度;
(4)元素级的操作(element-wise)会增加时间消耗。

遵循以上准则提出了一个更有效的网络结构——ShuffleNet V2。下图是ShuffleNet V1(图中a和b)和ShuffleNet V2(图中c和d)组成模块的对比。对比(a)和(b),ShuffleNet V2首先用Channel Split操作将输入按通道分成两部分,一部分直接向下传递,另外一部分则用于计算;然后弃用了1x1的组卷积,将通道混洗操作(Channel Shuffle)移到了最后,并将前面的Add操作用Concat代替。

研究结果:
论文进行了大量的实验,与MobileNet V1/V2、ShuffleNet V1、DenseNet、Xception、IGCV3-D、NASNet-A等模型在速度、精度、FLOPs上进行了详细的对比。实验中不少结果都和前面几点发现吻合,ShuffleNet V2在准确率和速度方面达到了很好的平衡。

论文题目:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

**中文题目:非视距形状重建的费马路径理论
**
论文作者:Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.

论文出处:CVPR 2019 : IEEE Conference on Computer Vision and Pattern Recognition.

论文地址:https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf

研究问题:
很多时候摄像头可能无法拍摄全部场景或物体,例如,面对摄像机的物体背面,拐角处的物体或通过漫射器观察到的物体。非视距(non-line-of-sight,NLOS)成像对于许多安全保护应用至关重要。一些传统方法通过分析隐藏场景投射阴影的细微本影和半影,以估计粗糙的运动和结构,或使用光的相干特性来定位隐藏的对象,但很难重建任意隐藏场景的3D形状。基于主动照明的瞬态NLOS成像大多采用快速调制光源和时间分辨传感器,但现有的SPAD强度估计不理想,而且重建NLOS对象的朗伯反射率假设。作者使用NLOS瞬态测量得出几何约束而非强度约束的方法来克服上述限制。

画像

上图为非视距成像示例:被遮光板遮挡(a)和被漫射板遮挡(b)的物体表面重建结果与视距扫描结果(c)对比。

研究方法:
作者提出了一个新的光费马路径(Fermat path)理论,即光在已知的可见场景和不处于瞬态相机视线范围内的未知物体之间,这些光要么从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。作者证明,费马路径对应于瞬态测量中的不连续性,间断点的位置仅与NLOS对象的形状有关,与其反射率(BRDF)无关。并推导出一个新的约束条件,它将这些不连续处的路径长度的空间导数与曲面的曲率相关联。

基于此理论,作者提出了一种称为费马流(Fermat Flow)的算法,用于估计非视距物体的形状。其关键在于,费马路径长度的空间导数可唯一确定隐藏场景点的深度和法线,再拟合和估算平滑路径长度函数,进一步结合深度和法线获得光滑的网格,从而精确恢复了对复杂对象(从漫反射到镜面反射)形状,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。最后,该方法与用于瞬态成像的特定技术无关。

研究结果:
作者使用了一些不同BRDF的凹凸几何形状的日常物品,包括半透明(塑料壶),光滑(碗,花瓶),粗糙镜面(水壶)和光滑镜面(球形)等。分别开展了使用SPAD和超快激光从皮秒级瞬态中恢复毫米级形状,以及使用干涉法实现从飞秒级瞬态中恢复毫米级形状的两种实验,实验结果显示重建细节与groundtruth形状非常吻合。

论文题目:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images

**中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习
**
论文作者:Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel

论文出处:ECCV 2018: European Conference on Computer Vision.

论文地址:
http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf

研究问题:
对于诸如移动机器人控制和增强现实之类的应用而言,现代计算机视觉系统中最重要的组件之一就是可靠且快速的6D目标检测模块。至今尚无通用,易于应用,强大且快速的解决方案。原因是多方面的:首先,当前的解决方案通常不足以有效处理典型的挑战;其次,现有方法通常需要某些目标属性。而且,当前的方法在运行时间以及所需带标注的训练数据的数量和种类方面效率都不高。作者提出对单个RGB图像进行操作,可在很大程度上不需要深度信息,显著增加可用性。

研究方法:

画像

上图为6D目标检测管道具有齐次坐标变换Hcam2obj(右上)和深度细化结果Hcam2obj(refined)(右下)。作者提出了一种基于RGB的实时目标检测和6D姿态估计流程。首先使用SSD(Single Shot Multibox Detector)来提供目标边界框和标识符。其次,在此基础上,采用新颖的3D方向估计算法,该算法基于之前的降噪自动编码器(Denoising Autoencoder)的通用版本,增强型自动编码器(AAE)。AAE使用一种新颖的域随机化策略,模型学到的并不是从输入图像到物体位姿的显式映射,而是会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。因而,训练独立于目标方向的具体表示(例如四元数),避免从图像到方向的一对多映射,由此AAE可处理由对称视图引起的模糊姿态。另外学习专门编码3D方向的表征,同时实现对遮挡,杂乱背景的鲁棒性,并可推广到对不同环境和测试传感器。而且,AAE不需要任何真实的姿势标注训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势标注数据集的需要。下图为AAE训练过程。

画像

研究结果:
作者在T-LESS和LineMOD数据集上评估了AAE和整个6D检测管道,仅包括2D检测,3D方向估计和投影距离估计。与最先进的深度学习方法相比,AAE准确性更好,同时效率更高。另外,作者也分析了一些失败案例,主要源于检测失败或强遮挡。

论文题目:SinGAN: Learning a Generative Model from a Single Natural Image

中文题目:SinGAN:从单张图像学习生成模型

论文作者:Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion

论文出处:ICCV 2019 : IEEE International Conference on Computer Vision.

论文地址:https://arxiv.org/pdf/1905.01164.pdf

研究问题:
生成对抗网络(Generative Adversarial Nets ,GAN)在模拟视觉数据的高维分布方面取得了巨大飞跃。特别是用特定类别的数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量的样本方面取得了显著成功。但对高度多样化、多种类别的数据集(如ImageNet)的模拟仍然是一项重大挑战,而且通常需要根据另一输入信号来调整生成或为特定任务训练模型。对单个自然图像中各种图像块的内部分布进行建模已被公认为是许多计算机视觉任务的有用先验。作者将GAN带入到一个新领域—从单个自然图像中学习非条件生成模型。单个自然图像通常具有足够的内部统计信息,可学习到强大的生成模型,而不必依赖某个相同类别的数据集。为此,作者提出了一个新的单图像生成模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像的神经网络。

画像

相对于左边的原始图像,SinGAN生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始图像块分布。

研究方法:
作者的目标是学习一个非条件生成模型,该模型可捕获单个训练图像的内部统计数据。 此任务在概念上与常规GAN设置相似,不同之处在于,训练样本是单个图像的多尺度的图像块,而非整个图像样本。为此,SinGAN生成框架由具有层级结构的patch-GANs(马尔可夫判别器)组成,其中每个判别器负责捕获不同尺度的分布,这是第一个为从单个图像进行内部学习而探索的网络结构。图像样本从最粗尺度开始,然后依次通过所有的生成器直到最细尺度,且每个尺度都注入噪声。所有生成器和判别器具有相同的感受野,因此,随着生成过程推进可以捕获更细尺寸的结构。在训练时,对抗损失采用WGAN-GP损失,以增加训练稳定性。并设计了一种重建损失来确保可以生成原始图像的特定噪声图谱集合。

研究结果:
作者在图像场景跨度很大的数据集上进行了测试。直观上,SinGAN很好地保留目标的全局结构和纹理信息,很真实地合成了反射和阴影效果。再使用AMT真假用户调研和FID的单幅图像版本进行量化。AMT测试结果表明可以生成很真实的样本,对于细节保留的也更多,人类判别的混淆率较高。FID结果与AMT一致。

3.5 计算机视觉进展

近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

计算机视觉的研究目标是使计算机具备人类的视觉能力,能看懂图像内容、理解动态场景,期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。计算机视觉领域不断涌现出很多激动人心的研究成果,例如,人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。本文根据近两年计算机视觉领域顶级会议最佳论文及高引论文,对该领域中的技术现状和研究前沿进行了综合分析。

近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、3D传感技术等方面。随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例如,融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。

但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。

事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化,而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力,实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。

场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等)及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。

利用社会-长短记忆网络(Social-LSTM)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。

综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。

画像

立即体验工业视觉智能平台训练:

https://www.aliyun.com/product/indvi?spm=5176.12825654.h2v3icoap.467.e9392c4a1KMEL9&aly_as=c7DQGDJ5

サンプルデータは、事前に訓練アリクラウドモデルをユーザーの実際のシーンの組み合わせで得られた各シーンにおける業界のベストプラクティス、ユーザートレーニングサンプルデータによるカスタマイズされた最適化モデルに基づいて、ユーザの実際の使用シナリオに合わせてよう。

おすすめ

転載: yq.aliyun.com/articles/740749
おすすめ