CVPRトップカンファレンスペーパーの作り方(1)

1. アイデアとは何ですか?

1. アイデアの重要性

アイデアの重要性はいくら強調してもしすぎることはありませんが、それは科学研究論文の魂であり、あなたの論文と他の論文の最も重要な違いです。

 

私たちは理解する必要があります: 科学研究を行うとは正確には何ですか? 科学研究の本質はイノベーションです。新しい理論を見つけた場合でも、新しい発見、新しい方法、新しい現象があった場合でも、これらのことはすべて新しいものを生み出す必要があり、その場合、あなたのアイデアは、あなたが見つけた新しいコンテンツが最高です。ビュー。

論文を書くとなると、論文という形式を使って所定のフォーマットにまとめて自分のアイデアを表現することになりますが、実はここに来ればアイデアとは何かがわかるかもしれません。 2つの角度からお話しましょう。

一つは査読者の視点です。査読者は論文をレビューします。たとえば、トップカンファレンスの論文で、CVPRを例にとります。この論文を読んだ後、私は他の論文の新規性を評価します。私は実際に彼の核となるアイデアを見ていきます。もし彼の核となるアイデアがあれば、私はすごいと感じます。そして、それが本当に新しいと感じたら、私はその論文に非常に良い印象を持っているかもしれないし、おそらく彼に中の上のスコアを与えるでしょう。彼の論文の新規性が低ければ、私はそれを直接削除するかもしれません。論文の新規性とは、この項目を具体的に評価することです——新規性(新規性)、誰もがこの点に注意する必要があり、新規性は最終的に論文が受理されるかどうかに大きな影響を与えます。

一つは研究者の視点です。同様に、研究者にとって、論文が出版された後は、他の人に読んでもらい、この研究分野の他の研究者にインスピレーションを与えたいと考えています。そのため、他の人があなたの論文を読むとき、彼らは実際にあなたの論文のアイデア、つまり彼が望んでいることを読んでいるのです。知りたいのは、あなたのアイデアが私の問題に適用できるかどうかです。もしそのアイデアが彼女が関心を持っている問題に適用できるなら、あなたの論文は現時点で高く引用されるでしょう。そのとき、あなたはこの分野でますます成功するでしょう。しかし、実際にはすべてはアイデアから始まるので、そのアイデアがどれほど重要であるかを知る必要があります。

 

2. なぜそのアイデアは想像しにくいのでしょうか?

次に、2 番目の点は、これは誰もがより注目している点かもしれませんが、なぜ良いアイデアが思いつかないのか、そしてどのようにイノベーションを起こすのかという点です。この質問は実際に多くの人を悩ませています。おそらく、初めて科学研究をするとき、誰もがこの疑問を抱くでしょう。私も含めて、私は以前からこの疑問について考えていましたし、教授や大きな牛を含む多くの兄弟姉妹にも尋ねてきました。彼らはこの疑問を抱くでしょう。

自分なりにまとめてみましたが、以下のような理由が考えられます。

2.1 考え方の違い

一つ目は考え方の違いです。国内の教育制度を背景に育った世代としては、大学に進学する前、あるいは大学院に進学する前から、すべての質問には定型的な答えがあります。しかし、科学研究を行う場合、実際に標準的な答えを探しているわけではありません。これは未解決の質問であり、この場合、どのように始めればよいかわからないかもしれません。

2.2 問題の理解

2 番目の質問は、研究している問題を十分に深く理解していないということですが、この「深い」ということをどのように理解しますか? つまり、私が現在研究している問題に対する既存の解​​決策、その詳細、そしてそれが現在に至るまでどのように段階的に発展してきたのかを知る必要があるということです。したがって、現時点では、コンピュータの一般的な考え方と同じように、ルートノード、最も基本的な考え方に戻る必要があります。

あなたが現在抱えている問題の解決策は、先人たちの努力を重ねて導き出されたものであり、現在の研究計画を非常に明確に理解し、同時に非常に深く理解していなければなりません。 , 多くの場合、あなたが考えるアイデアの斬新さは、この問題に対するあなたの理解の深さを直接表しており、それが大きく関係しています。

ここで質問したいのですが、あなたは自分の研究分野で関連する論文を何冊読みましたか?この問題を直接解決できる論文を何冊読みましたか?

そこでもう一度尋ねると、解決策をすぐに思いつくことができる論文の種類は何種類挙げられますか? これは別の問題です。読んだすべての文献を分類し、各文献がこの問題を解決するためにどのような方法を使用しているかを知る必要があります。

3 番目の質問は、この分野で最も重要な論文を選択するように求められた場合、それがどれであるかを明確に知ることができますか? これは非常に重要です。皆さんに理解していただくためにこの質問をします。問題を十分に深く理解したら、その最も元の重要な記事に戻ってから、「これらの記事の最新版が登場しました」に戻ることができます。この関係を非常に明確にし、文脈を非常に明確にすると、実際にこのプロセスの中でアイデアが出てきて、さまざまな問題を考えることになる、これが問題の理解です。

2.3 論理障害

そして3点目は「論理力の欠陥」で、ここは多くの問題を含んでいますが、義務教育段階でも学部教育段階でも、論理的思考力を鍛える方法を教えることはほとんどありません。問題、長い間ロジックのジャンプ、swinトランス、clifトランス、このとき、論理的思考は、問題の解決策に遭遇したときに本当に現れるかもしれません。

2.4タイムリーなフィードバック

もう 1 つのポイントは、タイムリーなフィードバックです。アイデアはあるものの、そのアイデアが信頼できるかどうかわからないことがよくあります。他の人とコミュニケーションを取りたいと思っても、適切な人が見つかりません。誰かにどれくらいの貢献をしてもらいたいですか。」あなたに適切なフィードバック、経験がある場合は、フィードバックと指導を与えてください。そうすれば、現時点ではあなたのアイデアが非常にシンプルで効果的なアイデアにゆっくりと磨き上げられ、トップレベルのアイデアを送り出すことができるかもしれません。

私自身の経験を例に挙げると、修士課程の勉強をしていたとき、実際に家庭教師をしていました。その時、インターネットで色々な情報を読む以外に、周りの一部の生徒としかコミュニケーションが取れないかもしれないので、とても無力ではありますが、実際のところ、本当の科学的研究は、チューターにとって非常に重要なはずです。今回の役割は、あなたとコミュニケーションを取り、あなたの思考ロジックの抜け穴を指摘し、あなたが学ぶべき方向性を指摘し、そしてあなたがただ長くぶらぶらしないように、彼女の経験に基づいてあなたのアイデアが実現可能かどうかを伝えることです。そうすると、それはただの竹かごになってしまったことがわかりました。

結局、それが欠けていると、アイデアが思い浮かばない、トップ会議に出せるアイデアが思いつかないということが一つの結果として出てきて、それが既存の問題になっているんです。

​​​​​​​​​​​​​​

 

2. 論文アイデアの見つけ方

アイデアの解決策、または思考の方向性を探して、私自身がいくつかのポイントをまとめました、1 つは単純化、2 つ目は組み合わせ、3 つ目は移行、4 つ目は解釈と分析、5 つ目は新規性です。では、なぜそう言えるのか、多くの実践例を例に挙げながら、トップ会議の考え方を見つけていきます。

 

1. 簡素化する

アイデアを見つける最初の方法は、私はそれを単純化と呼んでいますが、実際には非常に単純です。複雑な問題の最も重要な核心点を見つけることです。実際、多くの既存の方法はそれほど複雑である必要はありません。これに代わる簡単な方法を見つけて良好な結果を得ることができれば、現時点での研究分野全体に大きな貢献となるでしょう。たとえば、この論文は、(彼) Kai Ming が最高であることもわかっています2016 年の CVPR の論文。

彼が解決したい問題は、その段階でディープラーニングでネットワークをさらに深くすると逆にパフォーマンスが低下するということであり、ネットワークが深ければ深いほどパフォーマンスが向上するというわけではありません。(He) Kai Ming 氏は、この問題を解決するために、ネットワークが深いからではなく、実際には適切なトレーニング方法がなく、ネットワークが十分にトレーニングされていないことが原因であると推測しました。彼自身、残差​​学習と呼ばれるそのようなネットワーク構造につ​​いて言及しました。これは図の残差ブ​​ロックです。

この記事が公開された後、彼は要約の中で、私の効果が非常に良かったこと、そしてどのような長い x 構造を使用したかについても非常に明確にしました。また、彼の単一の論文の引用数は現在 120,000 に達していることもわかっており、これもKai Mingの有名な著作です。

要点を単純化するということです。

この点を単純化するには、問題について非常に深く考えるか、理論によってはいくつかの角度から説明できる場合でも、既存の解決策に精通しているか、またはいくつかの優れた特徴を発見した場合でも、それらの特徴から始める必要があります。 、非常に独創的でシンプルかつ効果的な解決策がいくつか提案されています。

 

 2.組み合わせる

次に 2 番目は組み合わせと呼ばれます. この組み合わせは実際には a+b です. つまり、ある問題では、単に a を使用するだけでは解決できませんし、単に b を使用するだけでも解決できません。 a+bを組み合わせる、もちろんこれです このような組み合わせは単純な足し算ではなく、有機的な組み合わせです aの長所はbの短所を補い、bはaの短所も補うことができます。このように、a+b の解決策を見つけて、ある問題を解決すると、非常に良いものになるでしょう。 AAA I' 2022の論文を見つけました

彼が何をした?まず導出部分を見てみましょう. この組み合わせはほとんどの人が採用している方法であり、非常に直感的です. まず、なぜ a+b でトップ論文を出版できるのかを見てみましょう。

次に、PE と MT の共同トレーニングと呼ばれる部分を見てみましょう。この記事では、ビデオ フレームから取得した 2 枚の写真を使用しました。1 つは F LBL、もう 1 つは F unLBL、もう 1 つは です。 with ラベル付きの画像とラベルなしの画像が 1 枚ありますが、このとき解決すべき問題は何でしょうか? つまり、ビデオ シーケンスには少数のラベルしかありません。彼がやっているのは、samistlize 学習と呼ばれる問題です。彼の最終的な目標は、この少数のラベルを通過するビデオを改善し、ポーズを許可することです。推定者はより正確な姿勢を学習し、使用するタグをできる限り少なくし、ビデオ内に自然に存在する無料の連続情報をより多く使用して、この問題を解決します。

変圧器ジェネレーターを通過するオレンジ色の線を見てみましょう。次に、P unLBL からこのポーズを取得し、F LBL を入力として使用して、別の画像を出力します。この F unLBL は、以下の F unLBL のポーズになります。 、それは彼の姿勢の変形、変形した写真を作ることに相当します、このF'LBLは実際にF unLBLによって監修できるので、ここは自己監修があり、任意のビデオを置くことができます変形の形の画像は以前はそれを別のポーズの写真に変換していましたが、このポーズの写真は自然です。彼は元の写真を持っており、彼女は自己監視を行うことができ、その後自動的に監視が更新されると、移行変換ジェネレーターはこのポーズの識別器とこのポーズの識別器も同時に更新され、このとき、このポーズ推定器のパフォーマンスを継続的に改善することができます。

さて、この時問題があったのですが、彼は論文の中で、2枚の写真が近すぎる場合は変換する必要はない、と述べていましたが、いずれにしても同じ写真です。新しい情報が入ってこなければ、姿勢推定システムは新しい情報を学習できず、改善することもできません。もう 1 つの点は、2 つの画像の差が大きすぎる場合、変換ジェネレーターは適切に生成できず、失敗し、容量が制限され、失敗し、最終的には姿勢推定が不正確になるということです。それは問題につながります。つまり、2 つの画像には適切な動き距離があり、2 つの画像の動きの差が大きすぎてはいけないため、単純に手法を使用して姿勢推定の問題を解決することはできません。小さすぎることもありません。

このときは当然のことですが、これには強化学習を使用できます。実際に部分 a が、このピンクのボックスで表されている 2 番目の図の 3 の結合列に対応していることを見てみましょう。 ?この共同トレーニングをする写真はどうですか? このとき、強化学習という戦略が使われています。この共同トレーニングにどの 2 枚の写真を与えたかを判断します。姿勢推定器のパフォーマンスが向上し、このように繰り返し試行します。繰り返すことで、適切な画像を見つけます。解決策を考えます。そして、この点は a と b を上手に組み合わせるということです。b は a のいくつかの問題を解決できます。a と b が統合されると、学習フレームワーク全体がより良くなります。この姿勢推定器の問題を解決するには、この問題は次のようになります。この問題は、a も b も解決できませんが、a+b で解決できます。これは組み合わせ方法であり、非常に一般的な方法です。

どのように組み合わせるか、その組み合わせをどのようにして査読者に説得力のあるものにするか、そしてこの問題についてどのように考えますか? 現時点では、考慮する必要がある詳細がたくさんあり、直接組み合わせるのは絶対に不可能です。今すぐ強化学習計画を立てるべきでしょうか? 強化学習には多くの戦略がありますが、どれを選択すればよいでしょうか? これには多くの最適化戦略があるため、現時点ではどれを使用して a と組み合わせる必要がありますか? 現時点では、すべての実際的な問題、ビデオ シーケンス、および全体的な状況を考慮する必要があります。モーションの状況は変化します。を選択し、この強化学習のための特定の最適化戦略と最適化スキームを選択します。

この 2 つの全体を結合すると、非常に美しい解決策になります。他の人は、この問題に強化学習を使用していると考えるでしょう。そして、これをもう一度実行すると、ええと、効果は非常に優れていますが、一般的には困難です。 CVPR のレビュー率は 15% です。今年は実際に非常に低いです。記録的な低さのようですが、この記事はまだ草稿です。

 

3. 移行

3 番目のポイントも非常に一般的なポイントであり、移行です。

つまり、方法 a は b の分野でうまくいくので、方法 a は c の分野でもうまくいくでしょうか? これは実際には非常に自然な移行です. ここで私は今誰もがよく知っている例, つまりトランスを引用します. そして視覚的な分野での応用は 画像離婚と呼ばれるこの記事です, 16×16の単語. この記事はと呼ばれていますvit では、トランスフォーマー アーキテクチャをコンピューター ビジョンの分野に導入しています。彼が行うタスクは画像認識です。これは認識タスクであり、最も単純な認識および分類タスクです。オリジナルの変圧器アーキテクチャを可能な限り維持するために最小限の変更を加え、その後、変圧器アーキテクチャが視覚における分類問題を効果的に解決できることを確認しました。これは今までにない試みです。

ビジョン トランスフォーマー (VIT) の記事の最も重要な点は、NLP 分野で使用されてきた成熟したトランスフォーマー アーキテクチャを CV で初めて使用したことです。彼は画像を多くのパッチに分割し、このパッチを 1 つのパッチとして取り込みます。単語の埋め込み、それをトランスフォーマーエンコーダーに入力し、それに位置埋め込みを追加し 、トランスフォーマーエンコーダーを通過してセルフアテンションを継続的に実行します...その後、この最終特徴を取得し、MLP分類を作成すると、出力を取得できます。これは2020年に出版された彼の寄稿ですが、すでに2年が経過し、引用数は5,000を超えていますが、これはどのレベルなのでしょうか?多くの研究者は生涯で5,000引用に到達しないかもしれないが、彼は1つの論文で5,000引用を達成している。

これは移行です。この移行を実行したい場合、今は非常に難しいかもしれません。次に、移行を続けることができます。現在、トランスフォーマーは認識のタスクを実行しており、他のセグメンテーションとターゲットの検出に使用されています。フィールドはどうですか?その後、誰かがこのアイデアを研究し続け、そのときにスイム トランスフォーマー アーキテクチャが登場するでしょう。そのとき、スイム トランスフォーマーは分類問題を解決するだけでなく、検出問題とセグメンテーション問題も解決できます。

これは ICCV の 20 年間の最優秀論文でもあり、引用数もすでに非常に多くなっていますが、移行できる人はすでに考えているので、移行を考えるのは簡単ではないと考える人もいるかもしれません。なぜ最初に思いつかなかったのか、なぜ最初に作らなかったのかを尋ねることができます。実際には、たくさんの人がさまざまなアイデアに取り組んでいるのに、なぜその少数の人だけが成功するのでしょうか? いくつか考えられる疑問があります。そう考える人は多いが、最終的に誰が成功できるかは別問題だ。

もう 1 つの点があります。引き続き見てみましょう。ドメイン適応と呼ばれる小さな質問に戻りましょう。このドメイン適応は何を意味しますか? これは移行前と呼ばれるもので、私の研究の方向性の 1 つでもあります。元のドメインのモデルに関する知識を学習し、それをターゲット ドメインに適用することに相当します。ターゲット ドメインにはラベルがありません。知識をターゲット ドメインに転送します。私はこれまで DeepLabV2 や ResNet などの最も古典的なアーキテクチャをいくつか使用してきましたが、2022 年以降、誰かがこれを行うためにトランスフォーマーを使用しています。すると、画像の右下隅にそのパフォーマンスが表示されます。改善は非常に明らかです。他のソリューションと比較すると、その改善は非常に明らかで、DeepLabV2 と DeepLabV 3+ がありますが、DAFormer のアーキテクチャは非常によく実現できます。

移行には各ドメインに精通している必要がありますか? 必ずしもそうとは限りません。多くの場合、私がすべての知識について非常に明確であるとは限りませんし、すぐに非常に効果的な解決策を思いつきました。多くの場合、思考プロセスはこのようなものではありません。それは段階的に探求するものです。この変圧器は使えるのかな、私のアイデアの分野で?最初にこのアイデアがあり、この質問があり、それから調査を開始し、いくつかの実験を開始し、徐々にアイデアを検証します。すぐに実験を行い、実験結果が良好であれば、基本的に提出できます。原稿を置いて、最初に掛けてください。

 

4. 解釈と分析

次に、解釈分析と呼ばれる次の点を見てみましょう。

解釈分析とは何を意味しますか? つまり、新しい方法を提案する必要はなく、洞察、理由、動きについての推測、または特定の方法がより優れている理由、またはいくつかの方法が優れている理由を多くの実験を通じて証明するだけで十分です。さらに良いことに、ここは ICLR 2022 の論文「解釈可能性」であり、この種の記事について新しい方法について言及する必要はなく、その結果を検索する必要もなく、単に使用する必要があります。他の人が提案した既存のモデル これらに基づいて、いくつかの分析ツールを見つけて、それに対して包括的な分析を実行し、いくつかの暫定的な結論を得て、記事を公開することができますが、これには広範囲の情報が必要です。理論レベルや研究適応性、それでもある程度の基礎が必要です。誰もが説明したがるわけではありませんし、誰もが説明できるわけでもありません。1 つはあなたの意志、それをやりたいということであり、もう 1 つはあなたの能力、それができるかどうか、これらは 2 つの異なるものです。

この記事では、ビジョン トランスフォーマーがなぜ非常に効果的であるかを説明したいと考えています。彼は、ノイズ周波数を含むノイズの減少についていくつかの視覚化と分析を行いました。いくつかの分析があり、最終的にいくつかの結論が得られます。これらの記事はどこに掲載されていますか? 機械学習のトップ会議であるICLRのトップ会議で投稿した。

もう一つの論文も非常に興味深いと思いますが、この記事が生理学研究所のスポットライト投稿であることを示しておきますが、スポットライトの意味は、すでに草案が作成されている論文の中からいくつかの論文を選んで上位の賞を与えることと同じ意味です。最も優れた論文は一流の論文であり、学会に論文は 1 ~ 2 つしかありません。

 

それでは、この記事が何をしているのか見てみましょう。これは画像復元ネットワークであり、その後、彼は非常に魔法のようなことを発見しました。それは、ネットワーク内には、ぼけ除去 (ぼけ除去) に特別に使用されるいくつかのフィルターと、ノイズ除去に特別に使用されるフィルターがあるということです。 2 つの画像、つまり 2 つの前の入力、つまり 1 と 5 を見ることができます。

図 5 では、元の画像に何かが追加されていることは明らかです。実際には、これは非常に単純です。これらは 2 種類の劣化であり、1 つはブラー、もう 1 つはノイズであり、同じネットワークを介して 2 と6はその2つを組み合わせることで、ノイズもブレもすべて除去できる、これがこのネットワークの特徴であり機能です。

次に 3 番目の列を見てみましょう。 3 番目の列は、mask1% と呼ばれるブラー除去フィルタです。これは、ブラー除去に特別に使用されるネットワークの部分をマスクしますが、機能しません。結果はどうなりますか? 1~3のブレ除去性能がなくなり、ノイズ除去のみになりましたが、すごいと思いますか?ネットワークは、実際にその機能を制御できます。

次に、4 番目の列を見てください。違いは何でしょうか?

4 番目の列も同じマスク 1% ノイズ除去フィルター (フィルター/フィルター) です。このフィルターはノイズ除去部分を除去した後、実際にはノイズのある画像を除去することはできません。現在はぼかしのみを除去できます。画像の画像です。

フィルターのどの部分がノイズ除去を担当し、どの部分がブレ除去を担当するかをどのように判断するのでしょうか?

同じネットワークを制御するにはどうすればよいですか? これがこの論文の中心的な発見です. 彼は、ネットワークのフィルタ レベルで、それぞれが独自に区別できるいくつかの特性を持っていることを発見しました. フィルタには、ぼけ除去に使用されるものと、ぼかしに使用されるものがあります。これは管理されているのでしょうか?彼の論文、特にブレ除去フィルターとノイズ除去フィルターの定義方法について詳しく説明する必要があります。続きに興味がある場合は、その論文を読むことができます。

次に、他のことを見てみましょう。ネットワークにはこの驚くべき現象があることがわかりました。ネットワークには、さまざまなノイズを区別する能力があります。著者は以下の視覚化を作成しました。この視覚化には 2 つの視覚化があります。この図では、最初の写真はぼけ除去用のフィルターを発見しました。属性に似た方法でぼけ除去に使用されるフィルターを見つけます。そして、これらのフィルターが実際にはネットワークの裏側、ネットワークの深い層、つまり層に偏っていることがわかります。しかし、後でノイズ除去されるフィルターは、実際には前と後ろの両方で比較的均一です。

この論文では実際にこれらを紹介していますが、彼は新しい方法については何も言及していませんでした。彼はNIPSを出版することもできますが、実際、この点は誰もがこの方向に進むための多くの洞察を提供します。彼はネットワークが実際にあることを教えてくれます。異なるレイヤーには異なるフィルターがあり、実際には異なる機能があり、フィルターを制御することでネットワークを制御し、最終的なパフォーマンスを制御できます。上記の 2 種類のブラー除去とノイズ除去が最も明白です。これは、画像復元ネットワークのいくつかの機能の違いを説明しようとして、少し説明していることを意味します。他の人は、これに基づいてテクノロジーをさらに進歩させることもできます。時間が経つと、他の人があなたの論文を引用し、あなたの論文が非常に優れていると考え、あなたの論文を高く評価します。

これらのアイデアの長所と短所はありますか? 論文のアイデアの長所と短所を評価するために、実際には、あなたが探している方法が良いか悪いかではなく、十分に良い論文を作成し、それぞれの方法で十分な貢献をすることができます。 -深さ、どの方向に進んでも、深く掘り下げれば、多くの洞察を全員に提供できます。または、あなたの論文は非常に効果的です。または、私が言ったことを説明し分析する記事を提供できます。他の人が参照できるいくつかのポイントを多くの人に提供します。

 

 

 

5. 新しいものを見つける

そして最後の点、つまり新しい質問に戻りますが、これを考えた後、自分が読んだ非常に重要な論文が自然に浮かび上がってきたように感じました。

これも自動運転に関する論文ですが、自動運転は何をするのでしょうか?それは耳に依存するオーディオ信号であり、ニューラルネットワークに周囲のものを聞いたり、周囲のシーンの奥行き情報を聞いたり、人々の変化、彼の動き、彼の動きを聞いたりすることができると言えます。動きが変わります。私たちが行うことの多くは、RGB を使用して確認することなので、今度は CN ネットワークにリッスンしてもらいます。マイクが 2 つあれば、音声情報を入力するだけです。同じ方法で処理して、音声情報を取得することもできます。音声情報。

たとえば、車が近づいてきていますか? それは人です。人、車、建物はどのくらい離れていますか? それは静的な物体です。また、人間の動きを含むシーンの奥行き情報を認識することもできます。これは 2022 年に TPAMI によって公開されたばかりです。年。私の意見では、 の記事は非常に独創的です。これは穴を掘っているようなものです。新しい問題を定義した後、他の人はこの情報に注目するでしょう。興味があれば、この新しい問題をさらに研究するでしょう。彼は分かると思いますが、他の方法でこれを行うことはできますか? 以前に考えたいくつかの方法はこれに効果があるでしょうか?

この時、非常に興味深いことが起こります。あなたがこの穴を掘った後、他の人がその穴に飛び込み続けます。

2 番目のものは ACDC と呼ばれます: セマンティックな運転シーンの理解のための対応を備えた悪条件データセットです。これは、霧のシーン、雨のシーン、雪のシーンを含む夜間などの 4 つの悪天候シーンを組み合わせた悪天候シーンについて言及しています。それらをカテゴリ別に分類し、いくつかのデータセットを提供し、いくつかの人為的な注釈も作成したので、教師ありトレーニングまたは無人トレーニングを行うことができます。監督の適応、そして彼はこのタスクを定義し、論文を発表しました。これは、データセットを作成したり、新しい問題を定義したりするときの一般的なルーチンであると言えますが、嗅覚が必要です。これが研究の方向性を主導しているのは自分であり、研究の方向性を主導しているのは自分自身であることを知らなければなりませんあなたのこの論文は先駆的な仕事に違いありません。あなたの方向性が非常に興味深いと他の人が思ったら、彼らは飛び込むかもしれません。そしてあなたがその方向性を探求したいのであれば、誰もがあなたの論文を引用し、あなたの論文の流れを引用するでしょう。非常に高くなります。

彼が論文でこのデータセットを提案した後、そのデータセットに対する既存の手法の評価を行い、私は 4 種類の天気の下でさまざまなセグメンテーション モデルを提案しました。この移行前モデルは具体的にどのようなものですか? それから比較してみましょう。この実際のシーンのデータを使用します。比較して見てみましょう。すると、誰もがあまり良くないことがわかります。この R エクスポートは、元のモデルが持つべきパフォーマンスです。そして、これらも見ることができます途中の移行方法では、明らかな改善はなく、このバラクルとの違いは実際にはかなり大きいです。

この点に加えて、彼はリアルタイムで更新されるオンライン提出リストである Web サイトも作成しました。提出するメソッド、そのパフォーマンスの 1 つ、データセット、テストセット部分のラベルは次のとおりです。発表されていません。サーバーに送信するだけで、結果が得られた後に公開することができます。6 月 3 日、6 月 13 日、6 月 6 月、さまざまな方法で画像が非常にアクティブであることがわかります。 4 日には、多くの人が自分の手法について言及し、そのアイデアのいくつかを検証しました。つまり、実際、この分野は間違いなく今後ますます人気が高まり、誰もがますます注目することになります。これは新しいメソッドを定義しています。

 

3. 最近の研究ホットスポットの分析

ある日 Zhihu でこれを見つけたところ、データマイニングの専門家で、過去 3 年間の CVPR を分析し、インパクトファクターを表すクロスインパクトファクターと呼ばれるインパクトファクターを定義しまし。原稿とその引用の量の総合スコア。ホットスポットの方向性と包括的な学習パラダイムに関しては、現在行っている方向性、このホットスポットの方向性でのランキング、またはこの学習可能なパラダイムにどのレベルが関連しているか、または現在どのくらい人気があるのか​​を確認できます。

このようなリファレンスを提供すると、ターゲット検出が実際に CVPR サミットで頻繁に発表されることを誰もが知るでしょう。GAN、NeRF、NeRF は過去 2 年間で最もホットな方向と言え、3D ビジョンはますます高まっています今日、これは非常に重要な役割を果たしており、学習可能なパラダイムでは、よく見かける自己教師あり学習、SSL、そして小規模サンプル学習、ドメイン適応、および OOD 分布外学習も含まれています。これが全体的な状況です。

おすすめ

転載: blog.csdn.net/m0_73122726/article/details/128137599