レースのランドマーク検索識別フライパドルPaddlePaddleに基づいて、プログラムのフル解像度を受賞重賞を受賞します

最近、視界飛行パドル(PaddlePaddle)深い学習プラットフォーム、ランドマーク検索/認識ソリューション、Googleのランドマーク検索2019年の独立した研究開発[1]とGoogleのランドマークの認識2019に基づいてBaiduのチームは、[2] 2つのタスクが第二ゲインであります、コンピュータビジョンと誘わトップレベルの学術会議CVPR 2019の分野で技術を共有します。

Googleの現在の年更新、最大の人工と自然のランドマーク認識データセットは、Google-のランドマーク-V2をリリースし、データセット200,000カテゴリのランドマークで説明し400万人以上の画像が含まれています。トレーニングデータ等重大な影響、天候や光を、遮断する、角度を撮影してランドマークの画像と細かいマニュアル注釈、深刻な不均衡のカテゴリの数をされて、非ランドマークデータ、現実的な、非常にやりがいが多く含まれていません。このデータセットに基づいて、今年は画期的な検索グーグルが主催するコンテストを識別するに参加した300の以上のチームの世界全体を集めました。


640?wx_fmt = PNG

図のランドマークと検索結果画像TOP5のいくつかの例。


ランドマーク検索タスク懸念与えられた画像は、あなたは、特定のデータベース内のすべての同じランドマークの画像を見つける必要があります。評価データ100,000の画像(テストコレクション)だけでなく、ほぼ80万(インデックス・コレクション)の検索可能なデータベース上で照会されます。


ランドマーク認識タスクのイメージを与えられた懸念は、画像は、それが目印であれば、あなたは場所20万種類にその対象カテゴリをマークする必要があり、ランドマークをマークされていません。


同じ画像評価データを照会し、ランドマーク検索タスクは、突起に係るランドマーク画像2000未満であるなど、レースを終了します。現在では、受賞歴のあるビジュアルプログラムのBaiduのチームはarXivのに提出し、オープンソースコードGitHubの上でされています。以下はあなたの詳細な解釈を提供します。


論文は対処します。https://arxiv.org/pdf/1906.03990.pdfを


オープンソースプロジェクトのアドレスします。https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/Research/landmark


ランドマーク検索ソリューション


ランドマーク検索ゲームでは、我々は、使用 ImageNetの モデルパラメータを、その後GLD v2の(GoogleのランドマークデータセットV2)に訓練、初期化のために事前に訓練されています 。ネットワークアーキテクチャは、我々はResNet 152を使用して、[4]、ResNet200 [ 4]、SE_ResNeXt152 [5] とインセプションV4 [6]バックボーンネットワークとして。ResNet_VD、TOP1 1000 ImageNet分類タスクの4つのモデルの精度の改良版を用いて、[3]紙に基づいてResNetシリーズは80.59パーセント、80.93パーセント、81.40パーセントと80.77パーセントでした。これらのモデルとトレーニング方法は、すでにオープンソースで[7]パドルのGithubの画像分類プロジェクトを飛びます。

 

640?wx_fmt = PNG

図2ランドマーク検索タスクのフローチャート溶液


コンパクト全体バックボーンネットワークを作るために損失をarcmargin使用しながら、512次元にマッピングされている(接続層ソフトマックス分類及びその後の完全なネットワークを含まない)層を介して出力に接続されている訓練特徴検索処理において、[8]伝統的な交換ソフトマックス損失、さらにスキルモデルの機能を強化するために、448 * 448の解像度の訓練画像を調整します。また、それはまたNpairs損失に基づいており、ゲーム中[9]、80万枚の画像の後にクラスタリング索引は、システム全体の汎化能力を強化するために、機能より多くの異なる寸法を学び、訓練のセットに追加されます。すべてのトレーニング検索機能コードメトリックは、オープンソース[10]で、プロジェクトのGithubのパドルで飛ぶことを学ぶされています。


ソリューションでは、基本的な機能に加えて、検索戦略は、クエリ拡張(QE)[11]とデータベースの増強(DBA)ポリシーを使用していました。伝統的なQEとDBAとは異なり、平均キューは、さらに選択した局所特徴の分類と並べ替え並べ替えを追加しました。図に示すように、局所的な特徴は、数度、大規模な変換ケースを引き戻すことができます。


640?wx_fmt = PNG

図局所特徴の実施例3の影響


また、ゲームはさらに分類rerankによって検索インデックスを強化するために、分類モデルをトレーニングするために使用されるデータの全量に基づいています。分類は、このようなテスト画像としてのクロスドメインの画像の一部は、古い写真の主題に応じて引き戻すことができ引き戻すことができます。分類再配置では、各テスト画像ギャラリーインデックスを要求するように、テストカテゴリとインデックス画像用のマルチ分類戦略投票し、投票を使用するときに画像面の同じタイプ。場合 利用区分および再編成ローカル機能した後、さらにDBAとQEの効果を高めることができます。特定の結果を表1に示します。


Googleのランドマーク検索2019 [1]公式説明を参照して詳細に定義された100 @マップを使用して、ランドマーク検索タスクの評価指標、


640?wx_fmt = PNG

表1は、異なるモデルや戦略の効果を取得します


ランドマーク認識ソリューション


640?wx_fmt = PNG

図4ランドマーク認識タスクのフローチャート溶液


上記のランドマーク認識タスクの溶液プロセスは、主に3つのステップを含みます。


1. 識別目印に基づいて世界的に取得したカテゴリを備えています。


在地标识别任务中,利用检索特征,用 11 万的测试集合与 400 万的训练集合进行匹配。基于检索结果中 top5 图片的 label, 对它们进行类别投票,选取 top5 中类别最多的类当作测试图片的预测类别,该类最大得分作为预测得分。这一步后,GAP 指标会达到 private/public:0.10360/0.09455。由于识别比赛使用 GAP(Global Average Precision)作为评估指标(详细定义参考 Google Landmark Recognition 2019[2] 官方说明),如果大量非地标图像得分也很高,则会大幅度的降低 GAP 指标。虽然检索特征的识别效果很好,可以准确识别出地标的类别,但是由于检索任务并没有考虑非地标图的过滤,部分非地标图得分也很高,所以直接使用检索特征,GAP 指标并不理想。地标识别任务的一个关键是如何排除掉大量的非地标图像。


2. 基于通用目标检测器过滤非地标图像


为了过滤非地标图像,在比赛中,基于 Faster RCNN 通用目标检测算法 [12] 和公开的 Open Image Dataset V4 数据集 [13] 训练了一个通用目标检测器。Open Image Dataset V4 包含了超过 170 万的图片数据,500 个类别以及超过 1200 万物体框。百度视觉团队曾经在 Google AI Open Images-Object Detection Track(简称OpenImagesV4Det[14]) 目标检测任务中斩获第一。OpenImagesV4Det 的夺冠方案融合了不同深度学习框架和不同骨干网络多种检测器。而在地标识别比赛中,为了提高预测速度,借鉴 OpenImagesV4Det 比赛中采用的动态采样、多尺度训练以及 soft-nms 等经验,选取 ResNet50 作为骨干网络,重新训练一个单模型目标检测器,该检测器只采用单尺度测试,在 OpenImagesV4Det 比赛 public LB 的指标可以达到 0.55。单模型检测效果达到 OpenImagesV4Det 比赛 top10 水平。这个检测模型的预测代码已经随本解决方案开源,其训练代码计划后续开源在飞桨的检测模型库里。


基于上述目标检测器过滤非地标图像主要有如下两步:


  • 目标检测器把所有的 test 集合图像分成了三个部分:地标集合,非地标集合以及模棱两可的图像集合。给定一张图像,利用图像物体之间的关联性,认为只要检测出的结果中包含 Building, Tower, Castle, Sculpture and Skyscraper 类别,那么这张图像就是包含地标的图片。如果检测器中包含 House, Tree, Palm tree, Watercraft, Aircraft, Swimming Pool 和 Fountain,那么就认为该目标是模棱两可,无法判断是不是含有地标,直接忽略。对于非地标集合,如果检测框得分大于 0.3,而且检测框占原图的面积大于 0.6,则认为这张图像是非地标图像。通过这一步,从 11 万多的测试集合中过滤出了 2.8 万的非地标图片。

  • 为了进一步过滤非地标图像,解决方案中使用剩下的测试集合图片去检索上述非地标的 2.8 万张图像,如果检索 top3 的图片 score 超过了阈值,那么也认为该图片是非地标。通过这一步,又过滤了 6.4 万的图片。经过上述两步,一共过滤了 9.2 万张图片,GAP 指标达到 private/public:0.30160/0.28335。


3. 多模型融合


在过滤完非地标图片之后,解决方案里使用了多模型融合的策略进一步提升 GAP。


640?wx_fmt = PNG

图 5 多模型分区策略


如图 5 所示,先使用 ResNet152 的检索模型对所有被识别为地标的图像进行分区,具体的分区规则为:


  • A1:测试图像去检索 400 万的训练数据库,top5 的类别少于等于 2 类,并且最小的预测分值>= 0.9;

  • A2:类似于 A1,top5 的类别少于等于 2 类,最大的预测分值>=0.85;

  • A3:不同于 A1,A2,A4 以外的图像;

  • A4:所有 Top5 返回图像的类别都完全不相同。


根据检索返回的类别和得分进行分区后,按照 A1 > A2 > A3 > A4 进行排序,GAP 的值达到 private/public:0.31340/0.29426。


对上述每个分区,进一步用分类模型的信息进行细分。


  • B1:检索预测的类别和分类预测的类别相同;

  • B2:不满足 B1 条件的图片。


使用 B 策略对 A 的每个分区内进行重排,识别效果进一步提升,GAP 指标达到 private/public:0.32574/0.30839。


最后,采用针对这个比赛才适用的 trick,即基于测试图像中地标类别出现的频率排序,GAP 达到 private/public: 0.35988/0.37142。比赛后,对上述策略进一步调参,发现 GAP 可以达到 private/public: 0.38231/0.36805。超越目前榜单最高分 private/public: 0.37606/0.32101。感兴趣的读者可以参看论文。这个策略之所以有效,初步推测可能与比赛的真值漏标有关。


总结


本文所介绍的图像识别和特征学习技术已经应用到百度的图像识别检索应用中,为通用图像搜索入口(图搜,手百)提供通用检索识别能力,同时覆盖商品、车型、品牌 logo、景点、植物花卉、公众人物识别等多种垂类的识别。


本次比赛完全基于飞桨深度学习平台实现,飞桨是集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台。百度视觉团队联合飞桨在视觉技术上有深厚的积累,目前 PaddleCV 已开源覆盖图像分类、图像目标检测、特征学习、图像分割、OCR、人脸检测、GAN、视频理解等类别,基于真实业务场景验证的、效果领先的优质模型,例如目标检测经典模型 YOLOv3,基于飞桨的实现,增加了 mixup,label_smooth 等处理,精度 (mAP(0.5:0.95)) 相比于原作者提高了 4.7 个绝对百分点,在此基础上加入 synchronize batch normalization, 最终精度相比原作者提高 5.9 个绝对百分点。


百度视觉团队曾首创了 Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet 和 Attention Clusters 等算法,在识别人、识别物、捕捉关系三个技术领域均具备业界最领先的技术实力,不仅用于百度内部产品,也通过百度 AI 开放平台持续对外输出,目前已对外开放了包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索等在内的 70 多项基础能力,为开发者和合作伙伴提供全栈式计算机视觉能力,让他们将领先的 AI 能力转换成让复杂的世界更简单的神奇力量,进而推动全行业、全社会的智能化变革。


参考文献


[1] https://www.kaggle.com/c/landmark-retrieval-2019

[2] https://www.kaggle.com/c/landmark-recognition-2019

[3]Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, JunyuanXie, Mu Li, Bag of Tricks for Image Classification with Convolutional NeuralNetworks, In CVPR 2019

[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR 2016

[5] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation net- works. In CVPR 2018

[6] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander AAlemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI 2017

[7]https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification

[8] Jiankang Deng, JiaGuo, NiannanXue, and StefanosZafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018. 

NIPS 2016年マルチクラスN対損失目的、深い計量学習を改善し[9] Kihyukソン、

[10] https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/metric_learning

[11] OndrejChum、JamesPhilbin、JosefSivic、MichaelIsard、そしてアンドリュー・ジッサーマン。トータルリコール:オブジェクト検索の生成的特徴モデルとの自動クエリexpan-シオン。ICCV 2007年

[12]宗-李林、ピョートルドル、ロスGirshick、Kaiming彼、BharathHariharan、セルジュBelongie、フィーチャーピラミッドネットワーク物体検出のために、CVPR 2017年に

[13] https://storage.googleapis.com/openimages/web/factsfigures_v4.html

[14] https://www.kaggle.com/c/google-ai-open-images-object-detection-track


PS:最後に、私は、GPUの福祉をお勧めします-  テスラカウントV100無料パワーをPaddleHubの現場モデルで離陸~~アプリケーションFanger魏コードスキャンコードを可能に


640?wx_fmt = PNG



640?wx_fmt = JPEG

おすすめ

転載: blog.csdn.net/PaddlePaddle/article/details/94249445