張正陽博士:3世代のコンピュータービジョン

ライノバードミドルスクールの科学的才能トレーニングプログラムの重要な一環として、ライノバードミドルスクールイノベーションリサーチキャンプが最近オープンしました。オープニングセレモニーでは、ハーバード大学と清華大学のChengtong Qiu教授、TencentAIラボとTencentRobotics XラボのディレクターであるZhangZhengyou博士、および清華大学が招待されました。大学、中国科学大学、北京郵政大学の4人の優秀な先輩が、対話の達人からの情報分野に関する知識、業界の洞察を共有し、成長に焦点を合わせました。

Zhang Zhengyou博士が共有するトピックは、「コンピュータービジョンの3つの命」です。コンピュータービジョンは、この人工知能のクライマックスで最も成功した分野である可能性があります。Zhang Zhengyou博士は、この分野に35年近く携わっており、ニッチな研究の方向性から、多くの実際的なシナリオで開花した多くのユニコーン企業へのこの分野の発展を目の当たりにしてきました。このレポートでは、Zhang Zhengyou博士がコンピュータービジョンの開発プロセスをレビューし、将来の開発も楽しみにしています。

以下は、張正陽博士のスピーチの写しです。

みなさん、こんにちは!アカデミアのQiuと一緒にRhinoBird Middle School Innovation and ResearchCampの開会式に参加できてとてもうれしく思います。

私はアカデミックなQiuをとても尊敬しています。アカデミックなQiuは、世界的に有名な数学者であるだけでなく、彼の文学的および歴史的基盤も非常に優れています。人類の私の文化はもっと悪いです。一方では、歴史的な理由、他方では、個人的な理由。歴史的な理由は、私の少年は文化革命の時代に住んでいて、読む本がないからです。私の個人的な理由は、文化革命後、数学、物理学、化学が非常に重要であると感じたからです。当時、私たちは数学、物理学、化学を上手に勉強することを恐れないだろうと冗談を言いました。人類に対するいくつかの怠慢。あなたはとても良い時代にいます。あなたが学者のQiuから学び、数学と人間性に等しく注意を払い、学者のQiuのように学び、行動することを願っています。

私の経験を簡単に紹介します。私は比較的幸運です。文化革命後、私は基本的に比較的完成度の高い中学校と高校を持っていました。1981年に浙江大学に入学しました。当初、使用したコンピューターはメインフレームで部屋を占有し、パンチカードを使用してコンピューターを操作していました。大学卒業後7ヶ月間フランス語を勉強した後、フランスに留学しました。3Dステレオビジョンをベースにした世界初の移動ロボットの開発に参加。10年後、私は学術休暇のために日本に行き、人工神経回路網に基づく世界初の顔の表情認識システムを開発しました。それから私はアメリカのシアトルに行き、Microsoft Researchに参加し、20年間働きました。「張の校正方法」と呼ばれるカメラフラットパネル校正方法を発明しました。これは、世界中のコンピュータービジョン、ロボット、または自律運転で広く使用されています。また、テレプレゼンスロボット、3Dデジタルヒューマンなどのプロジェクトの研究開発を主導しました。

2018年の初めに、私は深センに戻り、Tencentに参加し、Tencent Robotics Labを設立し、Tencent AILabを率いました。

1986年にフランスに行ったと言ったばかりです。また、1986年にパリで開催されたICPRの世界パターン認識会議に参加したのは初めてでした。また、この会議では、フーダン大学のウーライドが率いる中国の代表団に会いました。呉先生は会議報告を行い、中国でのパターン認識に関する研究を紹介しました。彼らは、1988年に中国で開催されるICPRに申請する準備をしています。

ここで重要な人物、つまりパーデュー大学のフー・ジンスン教授は、パターン認識の分野の創始者です。彼は1973年に最初のICPRの議長を務め、1976年にIAPRを設立し、1978年にIEEE TPAMIを設立し、最初の編集長を務めました。彼はもともと1988年に中国で開催されたICPRを支持していましたが、残念ながら1985年に亡くなり、1988年の申請は成功しませんでした。1988年にICPRを中国で開催できれば、おそらく中国はパターン認識とコンピュータービジョンの開発を進めるでしょう。もちろん、歴史にはifがありません。中国でICPRを開催するのに30年かかります。2018年、学者のタン・ティエニウ氏の指導の下、ICPRが初めて中国で開催されました。

1986年には別の重要なイベントがありました。フランスの兄のマ・ソンデが中国に戻り、パターン認識の国立主要研究所であるNLPRを設立しました。それは海外から何人かの学者を引き付け、多くの外国人訪問学者を招待しました。国内のコンピュータービジョン研究が始まりました。国際基準に準拠している。もちろん、Ma Songdeは中国の科学技術界の重要人物であり、後に科学技術の副大臣を務めました。1997年に中仏合同研究所が設立され、研究者の半数はフランスから来ました。

コンピュータービジョンに関しては、MITの教授であるDavidMarrという象徴的な人物がいます。40年前の1979年、彼は人間のステレオビジョンの観点からビジュアルコンピューティングの理論的枠組みを提案しました。マーの理論的枠組みには、計算するものから、表現および計算する方法、ハードウェアの実装まで、3つのレベルがあります。

3D再構成に関しては、マーは画像から実行するいくつかのステップがあると考えています。最初のステップはプライマリスケッチと呼ばれ、エッジ抽出などの画像処理です。したがって、1980年代半ばまでに、コンピュータビジョンの主な仕事は画像処理でした。

最も有名な作品は、おそらく1986年にMITのマスター学生によって公開されたキャニーエッジ検出オペレーターであり、基本的にエッジ抽出の問題を解決しました。下の図に示すように、左が元の画像、右が検出されたエッジです。当時、中国の科学者シェン・ジュンによる別の有名な仕事がありました。彼はフランスのボルドー大学にいました。彼はさまざまなオペレーターを比較しました。一部の画像では、彼のオペレーターはキャニー検出器よりも優れています。ですから、1980年代半ばまでに、私がフランスに留学していたとき、私はほとんど画像処理を終えていました。

幸いなことに、幾何学的なビジョンはまだ現れ始めたばかりです。2人の代表者がいます。1人はフランスのOlivierFaugeras、彼は私のPhDスーパーバイザー、もう1人は米国のThomasHuangです。彼をトムと呼びます。彼らは良い友達で、一緒に記事を書いています。私は1988年以来トムを知っていて、彼は私にとても助けてくれました。彼は、中国の学術界や産業界で活躍する多くのコンピュータービジョンの専門家を含む100人以上の博士号を取得しており、中国のコンピュータービジョンへの貢献は非常に大きいです。残念ながら、彼は今年の4月に亡くなりました。先週のグローバル人工知能およびロボティクスサミット(GAIR)で、トムの友人や学生の何人かが、トムのコンピュータービジョンへの貢献を記念する特別セッションを開催しました。

Olivier Faugerasから学び、ステレオビジョンナビゲーションを備えた世界初のモバイルロボットの開発に参加できることを光栄に思います。1988年、私の最初の研究結果が2番目のICCVに掲載されました。右側は、米国フロリダでの会議の写真です。当時、コンピューターのビジョンは活況を呈していませんでした。ICCVには約200人の参加者があり、中国人はさらに少なかったでしょう。おそらく私、Quan Long、Tomの学生であるWengJuyangだけでした。

博士課程では、モーション推定、データの不確実性、ロバストな推定アルゴリズム、モーションセグメンテーション、ショートシーケンスマッチング、ロングシーケンストラッキングなど、3Dダイナミックシーン分析に多くの作業を行いました。1992年に、私はこれらの作品を私の最初の本に統合して出版しました。

例として、不確実性のモデリングと計算を示したいと思います。これには確率と統計の使用が必要であり、これは非常に重要ですが、今日、視覚を行う人々はしばしばそれを無視します。ここで、下の2本の線は2つの画像平面を表しています。左の画像の白い点は、右の画像の白い点に対応しています。各イメージポイントは空間内の直線に対応し、2つの直線の交点は、3D再構成である3Dポイントを提供します。同様に、左の画像の黒い点は右の画像の黒い点に対応し、2本の線の交点が3次元の点になります。しかし、画像のポイントが検出され、ノイズがあります。不確実性を表すために楕円を使用すると、画像のポイントは線ではなく円錐に対応します。2つの椎骨の交点は、3D再構成点の不確実性を表しています。ここでは、遠い点よりも近い点の方が正確であることがわかります。これらの3次元再構成ポイントを使用する場合、これらの不確実性を考慮する必要があります。たとえば、ロボットがある場所から別の場所に移動する場合、その移動を推定する必要があるときにデータの不確実性を考慮する必要があります。

1992年に、反復ポイントマッチングによって曲線またはサーフェスを位置合わせするICPアルゴリズムを提案しました。このアルゴリズムは多くの場所でも使用されています。私たちが今よく耳にするSLAMは、実際には、動き、3次元再構成、不確実性推定、ICPから構造を推定するために使用したものです。実際、SLAMは理論的には1990年代初頭に解決されました。

1995年に、私はロバストな画像マッチングとエピポーラジオメトリ推定方法を提案し、同時にプログラムをインターネットに公開し、誰もがこれを参照として使用しました。これは、他の人が実際の画像でテストできるように、コンピュータビジョンプログラムをインターネット上に配置した世界で最初の、少なくとも1つの可能性があります。そのため、このアルゴリズムは当時、コンピュータービジョンの普遍的な方法になりました。現在の多くのオープンソースコードとは異なり、当時はオープンソースがまったくなかったため、すべてのコードは独自に作成されていました。

1998年に新しいカメラ校正方法を提案し、後に「張の方法」と呼ばれるようになり、現在では世界中の3Dビジョン、ロボティクス、自律走行で広く使用され、IEEEヘルムホルツタイムテスト賞も受賞しています。 。

1998年、Ma Songdeと私は、ますます成熟する幾何学的ビジョンを要約しました。これは、SciencePressから大学院の教科書として発行されました。

1998年には多くのことが起こりました。1つはMSRAMicrosoft Research Asiaの設立であり、もう1つはTencentの設立です。これら2つの一見無関係に見える組織は、実際には、中国のコンピュータービジョンの開発と、人工知能全体の開発において計り知れない役割を果たしてきました。MSRAは高度な国際的研究手法とアイデアを中国にもたらし、Tencentは中国のインターネットの開発を推進してきました。インターネットのおかげで、中国の研究者は世界のトップの研究結果にほぼリアルタイムでアクセスできます。

中国のコンピュータービジョン業界における重要な画期的なイベントは、2005年に北京で開催されたICCVで、MaSongdeとHarryShumが会議の議長を務め、中国のコンピュータービジョン研究レベルが国際的に認められたことを示しています。また、トム・ファンからIEEEフェロー証明書を受け取ったことを光栄に思います。

おそらく、幾何学的ビジョンの理論は比較的成熟しています。1990年代後半に、コンピュータービジョンの研究がオブジェクトやシーンの検出と認識に参入し始めました。使用される方法は、従来の機能と機械学習です。

当時、私は長い間幾何学的な視覚を行っていましたが、1997年には、ガボールウェーブレットを使用して、ニューラルネットワークを使用して顔の表情を認識する世界初のシステムの実験と開発も開始しました。顔の表情認識は20年以上前に始まりましたが、当時のデータは少なすぎました。マイクロソフトで顔の表情認識技術を商品化したのは2016年のことでした。誰でもマイクロソフトの認知サービスを利用できます。

従来の機能と機械学習の時代には、言及する必要のある画期的な作業、つまり2001年のViola-JonesDetectorがあります。Harr機能とカスケード分類子を使用すると、顔の検出を非常に高速に実行できます。20年前のマシンでリアルタイムを実現できます。次のサイクルは、新しいデータセットの波とアルゴリズムの波の導入です。

2009年、スタンフォード大学のLi Feifeiチームが立ち上げたImageNetというデータセットが登場しました。このデータセットは非常に重要です。その重要性は、このデータセットが大きいということではなく、数年後に深層学習の時代を生み出したことです。

2012年、Geoffrey Hintonの2人の学生が8層のニューラルネットワークと6000万個のパラメータを使用するAlexNetを開発しました。エラーは、従来の方法から10パーセントポイント以上減少し、26%から15%になりました。それ以来、コンピュータビジョン深い学習の時代。このAlexNet構造は、実際には、1989年にYann LeCunが手書きの数字認識に使用したニューラルネットワークとそれほど違いはありませんが、より深く、より大きくなっています。

Geoffrey Hinton、Yoshua Bengio、Yann LeCunの深層学習への貢献により、彼らは共同で2018 TuringAwardを受賞しました。彼らはこの賞に値する。ジェフリー・ヒントンが1986年に逆伝播を提唱し、25年間ベンチに座っていたことをご存知でしょう。

深層学習の時代には別のマイルストーンがあります。2015年、Microsoft ResearchAsiaのHeYumingとSunJianは、152層のニューラルネットワークを使用するResNetを提案しました。ImageNetテストセットのエラーは、人間のエラーよりも低く、4%にまで低下しました。以下。

深層学習の分野でも少し貢献しています。2014年、UCSDのZhuowen Tuと協力して、Deep Supervised Nets、DSN、Deep SupervisedNetsを提案しました。影響はResNetほど大きくはありませんが、1,400件近くの引用があります。アイデアは、出力が中間層を直接監視するようにすることです。これにより、最下層が学習する関数に可能な限り近くなり、勾配の「爆発」または「消失」も軽減されます。

30年以上の開発の後、コンピュータービジョンの分野における中国人の力は、今では数人から数千人にまで成長しました。昨年のCVPR2019は中国人の祭典と言えます。主催者には、会議の議長である朱松春、プログラム委員会の議長である華剛、トゥ・ジュオウェンなど、多くの中国人の顔があります。5,000件を超える応募のうち、40%は本土からのものであり、Best PaperAwardとBestStudent PaperAwardの筆頭著者も中国人です。したがって、中国のコンピュータビジョン機能は依然として非常に強力であり、これは誇りに思うことです。

ここで、初期の画像処理、ステレオビジョンと3次元再構成、オブジェクトの検出と認識から、フォトメトリックビジョン、幾何学的ビジョン、セマンティックビジョン、そして世界中の現在の深層学習まで、コンピュータービジョン研究の進化を振り返ってみましょう。これは私を心配します。深層学習には多くの制限があります。たとえば、深層学習は本質的に監視された学習であり、データからタグへのマッピングを学習するためにタグが必要です。それは常識に欠け、推論することができず、ドメインの知識を組み合わせるのは困難です。

したがって、本来の意図に戻り、フォトメトリックビジョン、ジオメトリックビジョン、セマンティックビジョンを統合すると同時に、常識と領域の知識、言語とのマルチモーダル統合、学習による継続的な進化を注入する必要があります。

Tencent AI Labでも、この点で少し作業を始めました。たとえば、私たちのピクチャーアンドトークプロジェクトでは、写真の内容を言葉で表現できます。2018年1月に、視覚障害のあるユーザーが写真を「見る」ことができるQzoneアプリをリリースしました。また、コンピュータービジョン、音声認識、自然言語処理テクノロジーを統合し、仮想ヒューマン製品を開発し、マルチモーダルなヒューマンコンピューターインタラクションを調査し、他のシナリオを強化し、ソーシャルインタラクションを促進しました。

では、現在の人工知能は本当に賢いのでしょうか?左のビデオを見ると、カメラはいつでもスマートであるかのように人を追跡できます。しかし、右のビデオを見てください、あなたはそれが賢いと思いますか?セキュリティシステムにiPadを見てもらい、どうしたらよいかわからないようにします。誰かがあなたの目を覆いたいと思ったら、あなたはどうしますか?私はそれを避けます。しかし、このシステムは明らかにこのように動作しません。今日の人工知能は単なる機械学習です。マッピングは複雑かもしれませんが、大量のラベル付きデータからマッピングを学習します。

では、本当のインテリジェンスとは何ですか?まだ結論は出ていないので、自分の知性を十分に理解していないと思います。しかし、私はスイスの認知科学者であるジャンピアジェに同意します。彼は、インテリジェンスは、その方法がわからないときに使用するものであると述べました。この定義は非常に合理的だと思います。学んだことや才能を活かすことができないとき、使うのは知性です。スマートシステムを実装する方法は?いろいろな方法がありますが、キャリアを考慮して、キャリアベースのインテリジェンス、つまりロボットを作ることが非常に重要だと思います。

ロボット工学の分野では、A2G理論を提案しました。AはAI、ロボットは見たり聞いたり話したりできる必要があり、Bは体であり、体の形によって能力が異なり、Cは制御制御です。ロボット本体を正確に制御する必要があります。 ABCはロボットの基本的な機能を構成します。Dは発達学習、発達学習、ロボットは知性を向上させるために外界との相互作用を通じて継続的に学習できなければなりません、EはEQ、感情的理解、擬人化、ロボットは人間を理解でき、人間と共生します、Fは柔軟な操作、柔軟な操作です、敏感な触覚能力を持っている必要があり、物理的なキャラクターを実行します。最後に、Gに到達するのは、人類に奉仕し、人類を保護する守護天使、守護天使です。時間の関係で、1つずつ開始することはありません。

Tencentは、Fine Art Goロボット、テーブルホッケーロボット、ロボットドッグの3つのロボットを製造しました。ロボット犬の映像を見せてくれます。ロボット犬は障害物を迂回できる知覚システムを備えており、空中の障害物を見ると前方に這うことができ、しゃがんで前の人を見ることができます。

私の報告は以上です。最後に、TencentでのAIの使命は、Make AI Everywhereです。私たちは、人工知能を確実に活用し、技術が優れているため、人工知能を人類に役立てます。皆さん、ありがとうございました。

【ライノバード中学校科学人材育成プログラムについて】

Rhino Bird Middle Schoolの科学的才能トレーニングプログラムは、Tsinghua大学のQiu Chengtong数学科学センター、Tsinghua大学-Tencent Internet Innovation Technology Joint Laboratory、Beijing Yanqi Lake Applied Mathematics Research Institute、Tencent Foundation、Tencent RhinoBirdによって共同で開始されました。このプロジェクトは、情報科学に関心のある中国本土の3年生から3年生までの中学生を対象としています。学習と講師との交流を通じて、中学生の科学技術の才能に幅広いプラットフォームを提供し、中学生の未知を探求する興味と熱意をさらに刺激し、独立した思考と科学研究を育成することを望んでいます。革新する能力は、高校の科学技術の才能の包括的なトレーニングに役立ちます。

おすすめ

転載: blog.csdn.net/Tencent_TEG/article/details/108162186