上海交通大学LuCewuのチームは、自然界における行動理解の最新の研究結果を発表しました。

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

転載元:Heart of the Machine

上海交通大学のLuCewu教授のチームは、長年にわたって行動理解研究に取り組んでおり、最新の結果が「Nature」に掲載されています。

行動主体が特定の行動をとるとき、脳は対応する安定した脳神経パターンマップを生成しますか?安定したマップが存在する場合、機械学習手法を使用して未知の行動神経回路を発見できますか?

この一連の行動理解の本質的な質問に答えるために、トップの国際学術雑誌Natureに掲載された最近の研究は、行動理解のメカニズムに関する研究を実施しました。この論文の2人の共同執筆者は、上海交通大学のLuCewu教授とSalkResearchInstituteのKayM.Tye教授です。

56f42684ce797aef028fb553ad0cfd84.png

空間的および時間的概念の認識による複雑な順次理解

紙のリンク:https://www.nature.com/articles/s41586-022-04507-5

この成果は、コンピュータービジョン技術に基づいて、マシンビジョン行動理解と脳神経の内部関係を定量的に説明し、初めて安定マッピングモデルを確立しました。コンピュータビジョン行動分析を形成して行動神経回路を発見する、人工知能を使用して神経科学の基本的な問題を解決する新しい研究パラダイム「社会的階層」の神経回路は、哺乳類が他の個人や自分自身の状態をどのように判断するかという質問に答えることを目的としていますそれによって形成された新しい研究パラダイムは、人工知能と基礎科学の問題をさらに促進します。フロンティア交差点(AI for Science)分野の開発。

具体的な研究内容は以下のとおりです。 

e76003cee52bf7b17ac924b377e445a0.png

図1.視覚行動の検出-脳神経信号相関モデル:(a)マウスの視覚行動の理解(b)システムフレームワークとモデル学習。

視覚行動検出-脳神経信号相関モデル:実験対象としてマウスのグループを使用し、各マウスは、社会の特定の脳領域の内側前頭前野(mPFC)の連続脳神経を記録するために放射線生理学的記録装置を着用しました活動信号。同時に、各マウスを複数のカメラで追跡・配置し、Lu Cewu教授のチームが研究開発したポーズ推定(アルファポーズなど)と行動分類の研究結果に基づいて行動セマンティックラベルを抽出し、精度を高めます。マウスのポーズ推定の割合は、人間の目のそれよりも高くなっています。提案されたシステムによって自動的に収集された大量のデータに基づいて、隠れマルコフモデルは、「マウスmPFC脳領域の神経活動信号」から「行動ラベル」への回帰モデルをトレーニングし、訓練後のテストセットは、行動の視覚的タイプと行動対象の脳の脳神経信号パターンとの間に安定したマッピング関係があることを明らかにしました。

モデルの適用:動物の社会的階層の行動神経回路の制御(社会的階層)発見:視覚行動検出-脳神経信号相関モデルに基づいて、新しい行動神経回路を発見することができます。「動物の社会的階層」行動神経制御メカニズム(例えば、低ランクのマウスは高ランクのマウスに食事を優先させ、低ランクのマウスは服従行動を示す)は、学術界では常に重要な問題でした。 、哺乳類が他の個人や他の個人をどのように判断するか。あなたの社会的グループのステータスは何ですか?その背後にある神経制御メカニズムは何ですか?動物の社会的レベルの行動は複雑な行動の概念であるため、この問題は常に困難な問題であり、学界によって打ち破られていません。大規模なマウスグループ競争ビデオでは、上記のシステムとモデルに基づいて「動物の社会的階層」の行動を位置付け、同時に動物の社会的階層行動の脳活動状態を記録し、動物の社会的行動を深く分析した形成メカニズム、すなわち内側前頭前頭皮質-外側視床下部(mPFC-LH)回路が動物の社会的階層的行動を制御するように機能するという発見は、厳密な生物学的実験によって確認されました。この研究は、マシンビジョン学習に基づいて未知の行動機能の神経回路を発見するための新しい研究パラダイムを形成し、基本的な科学的問題を解決するための人工知能の開発をさらに促進しました(AI forScience)。

LuCewuのチーム行動理解に関する研究

上記の作業は、LuCewuのチームの長年にわたる行動理解の蓄積の一部です。マシンが動作を理解する方法には、次の3つの質問に対する包括的な回答が必要です。

1.機械認識の観点:機械に行動を理解させる方法は?

2.神経認知の視点:機械の認知セマンティクスと神経認知性の間の本質的な関係は何ですか?

3.身体化された認知の視点:行動理解の知識をロボットシステムにどのように伝達するか?

e4702962fb26f3a10e0213f1f2d56dcc.png

図2.行動理解に関するLuCewuのチームの主な作業

今回「ネイチャー」で公開された作品は、2番目の質問に答えることです。他の2つの質問については、チームの主な仕事は次のとおりです。

1.マシンに動作を理解させる方法は?

主な作業は次のとおりです。

  • ヒューマンアクティビティナレッジエンジンHAKE(ヒューマンアクティビティナレッジエンジン)

一般化可能で、解釈可能で、スケーラブルな行動認識方法を探求するためには、行動パターンとセマンティクスの間のあいまいな関係、およびデータ分散のロングテールを克服する必要があります。直接深層学習の一般的な「ブラックボックス」モデルとは異なり、チームは知識に基づいたデータ駆動型の行動推論エンジンHAKE(オープンソースWebサイト:http://hake-mvig.cn/home/)を構築しました。

9b5a2d9ed46f255383bc953dd11ea547.png

図 3.HAKEシステムフレームワーク

HAKEは、行動理解のタスクを2つの段階に分割します。最初に、視覚パターンが人体の局所状態のプリミティブ空間にマッピングされ、さまざまな行動パターンが、制限されて完全な原子に近いプリミティブによって表現されます。次に、プリミティブが表現されます。論理的なルールに従って、合理的な行動セマンティクスにプログラムされます。HAKEは、効率的なプリミティブ分解をサポートするための動作プリミティブの大規模な知識ベースを提供し、組み合わせの一般化と差別化可能なニューラルシンボリック推論の助けを借りて動作の理解を完了します。記事):

(1)ルールを学習できる:HAKEは、人間の行動に関する少量の事前知識に基づいて論理ルールを自動的にマイニングおよび検証できます-プリミティブ、つまり、プリミティブの組み合わせのルールを要約し、実際のデータに対して演繹的検証を実行して、効果的なものを見つけますまた、図4に示すように、未知の動作ルールを検出するための一般化可能なルール。

7a7c967cdabd073af28cca744b5c03ab.png

図4.目に見えない行動ルールの学習

(2)人間のパフォーマンスの上限:87クラスの複雑な行動のインスタンスレベルの行動検出テストセット(10,000画像)では、完全なプリミティブ検出を備えたHAKEシステムのパフォーマンスは、人間の行動の知覚パフォーマンスに近づくことさえでき、その大きな可能性を検証します。

(3)行動理解「チューリングテスト」:

74edbee4a27ec58bc66addf04438e72e.png

図5.機械(HAKE)と人間に一部のピクセルを消去させると、画像の動作を理解できなくなります。チューリングテストでは、HAEKの「消去方法」が人間と非常に似ていることが示されています。

また、特別な「チューリングテスト」を提案します。機械が画像から重要なピクセルを消去して、人間の被験者が行動を区別できない場合、行動をよりよく理解できると見なされます。HAKEと人間にそれぞれこの消去操作を実行させます。そして、別のボランティアグループにチューリングテストを依頼し、この消去操作が人間による操作なのか、HAKE操作なのかを尋ねます。人間の正しい識別率は約59.55%(ランダム推測50%)であり、HAKEの「消去手法」が人間のそれと非常に類似していることを示しており、行動の「解釈可能性」の理解が人間のそれと類似していることを確認しています。

  • 行動オブジェクトの一般化可能な脳に触発された計算モデル(ネイチャーマシンインテリジェンス)

特定の行動(「洗濯」など)の場合、人間の脳は、さまざまな視覚オブジェクト(衣服、ティーセット、靴など)に適用できる、一般化された動的な行動の概念を抽象化し、行動を認識します。神経科学の分野の研究では、継続的な視覚信号入力の場合、人間の記憶形成の過程で、時空間動的情報とオブジェクト情報が2つの比較的独立した情報経路を介して海馬に到達し、完全な記憶を形成し、行動オブジェクトの可能性をもたらすことがわかっています。一般化可能性の。

ab6dda51143775874a79db629c1b59a8.png

図6. 行動オブジェクトの概念と行動ダイナミクスの概念の分離。一般化につながります。

Lu Cewuのチームは、脳科学のインスピレーションに基づいて、人間の認知行動オブジェクトのメカニズムとさまざまな脳領域で独立して機能する動的概念を模倣して認識を実現することにより、高次元情報に適した半結合構造モデル(SCS)を提案しました。行動視覚オブジェクトの概念と行動ダイナミクスの概念は記憶され、2つの比較的独立したニューロンに保存されます。デカップリングバックプロパゲーションメカニズムは、ディープカップリングモデルのフレームワークの下で設計されており、2種類のニューロンを制約して、動作対象オブジェクトへの動作理解の一般化を事前に実現する独自の概念のみに焦点を合わせます。提案された半結合構造モデル作品は「NatureMachineIntelligence」に掲載され、2020年世界人工知能会議優秀若手論文賞を受賞しました。 

3e036e23fc9919c7419194680a6c3911.png

                                        ビデオシーケンスオブジェクトニューロン動的ニューロン

図7.「視覚オブジェクト」と「行動の動的概念」「NatureMachineIntelligence」を表すニューロンの視覚化

  • 人間のポーズ推定

人間の姿勢推定は、行動を理解するための重要な基礎です。この問題は、構造的制約の下で正確な知覚を得る問題です。構造的制約の下での知覚問題、グラフ競合マッチング、姿勢フローのグローバル最適化、および神経分析ハイブリッド逆運動に焦点を当てます。最適化が提案されています。密集した群集干渉、不安定な姿勢追跡、および人間の運動構造の意味での3D人体の深刻な常識エラーの問題を体系的に解決するためのアルゴリズムがあり、CVPR、ICCV、およびその他のトップコンピューターで20以上の論文を公開しています。ビジョン会議;

11aab1edb3fbe92623e6cd37123c76a6.png

図8.構造を意識した作業。

関連する研究結果が蓄積され、オープンソースシステムAlphaPose(https://github.com/MVIG-SJTU/AlphaPose)が形成され、オープンソースコミュニティGitHubで5954スター(1656フォーク)を獲得し、GitHubは1.6にランクインしています。トップ100,000の。センサー、ロボット工学、医学、都市建設の分野で広く使用されています。ポーズ推定後、チームはさらに、オープンソースフレームワークを理解するオープンソースビデオの動作であるAlphactionを形成しました(https://github.com/MVIG-SJTU/AlphAction)。

2.行動理解の知識をロボットシステムに移す方法は?

単に「彼女/彼がしていること」を考えることから「私が何をしていること」を共同で考えることまで、一人称の視点と組み合わせて人間の行動の性質の理解を探求してください。この研究パラダイムは、「身体化されたAI」の研究アイデアでもあります。この理解能力と学習した行動知識の具体化されたインテリジェントオントロジー(ヒューマノイドロボット)への伝達を探求し、ロボットが最初に「人間の行動能力」を持ち、最後にロボットを駆動して現実世界のいくつかのタスクを完了し、基礎を築きます一般的なサービスロボット用。上記の科学的問題の解決策は、(1)行動的意味検出のパフォーマンスを大幅に改善し、意味理解の範囲を改善します。(2)インテリジェントエージェント(特にヒューマノイドロボット)が現実世界を理解する能力を効果的に改善します。同時に、タスクを完了する過程で現実の世界に応じて世界からのフィードバックは、行動概念の性質のマシンの理解をテストし、汎用インテリジェントロボットの実現のための重要な基盤を築きます。 

近年、Lu Cewuのチームは、具体化されたインテリジェンスの分野でFeixi Technologyと協力して、剛体、変形可能なオブジェクト、およびこのタイプの見えないオブジェクトを把握するために、PPH(1時間あたりのピック数)インデックスは、以前の最高のパフォーマンスを発揮するDexNetアルゴリズムおよび関連する論文の3倍である人間のレベルを初めて上回りました。出版から1年以内に70回引用されました。オブジェクトの把握は、ロボット操作の最初のステップであり、このプロジェクトの優れた基盤となります。

fc2380e1ac7322dfe21808b9e5f37ad0.gif

ロボットの動作-オブジェクトモデルの相互作用の知覚

ロボット行動実行能力と対象知識理解の共同学習と反復改善を実現し、ロボット相互作用による対象モデルの知覚推定誤差を本質的に低減し、対象知識の理解に基づくロボット行動実行能力をさらに向上させる。以前の純粋な視覚オブジェクト認識と比較して、相互作用は新しい情報源をもたらし、知覚パフォーマンスの本質的な改善をもたらします。図9とビデオに示すように、

00a60be0fee0a0bc1e5fed53a8dca59e.png

図9.オブジェクト知識モデル-ロボットの行動に関する意思決定の反復的な改善

46a471828750a69088ec9ae902d2094a.gif

d7da17fb1188ce3ff9bbe7df898dec04.gif

図10.相互作用の知覚:ロボットの行動(上)とモデルの理解(下)の共同学習(矯正知覚を改善しながら行動を実行する)

関連する作品は、ICRA 2022で公開された論文「SAGCI-System:Towards Sample-Efficient、Generalizable、Compositional、and Incremental Robot Learning」(SAGCI System:A Sample-Oriented Efficient、Scalable、Composable、a​​nd Incremental Robot Learning Framework)です。 。

  • ウェブサイト:https://mvig.sjtu.edu.cn/research/sagci/index.html

  • ビデオ:https://www.bilibili.com/video/BV1H3411H7be/

上海交通大学の教授兼指導教官であるCewuLuは、彼の研究の方向性は人工知能です。2018年、彼はMIT Technology Reviewにより、中国で35歳未満の35人の革新的なエリート(MIT TR35)の1人に選ばれました。2019年には、求是から優秀な若手研究者を受賞しました。

 
  

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/124287686