CMOSイメージセンサーは、光学画像を同時に検知して処理します

CMOSイメージセンサーは、光学画像を同時に検知して処理します

概観

近年、マシンビジョンテクノロジーは飛躍的な進歩を遂げ、現在では自動運転車やロボットを含むさまざまなインテリジェントシステムの不可欠な部分になっています。通常、視覚情報はフレームベースのカメラでキャプチャされ、デジタル形式に変換され、機械学習アルゴリズム(人工ニューラルネットワーク(ANN)1など)を使用して処理されますただし、大きな(ほとんどの場合冗長な)データはシグナルチェーン全体を通過するため、フレームレートが低くなり、電力消費が高くなります。人工ニューラルネットワークでの後続の信号処理の効率を向上させるために、さまざまな視覚データ前処理技術が開発されています。ここでは、イメージセンサー自体がニューラルネットワークを構成できることを証明します。ニューラルネットワークは、光学画像を遅延なく同時に検知して処理できます。私たちのデバイスは、再構成可能な2次元(2D)半導体フォトダイオードアレイに基づいており、ネットワークのシナプスの重みは、連続的に調整可能な光学応答行列に格納されます。教師ありおよび教師なしの学習を実証し、チップに投影された画像を光学的に分類してエンコードするセンサーを毎秒2,000万ボックスのスループットでトレーニングしました

カメラCMOSはニューラルネットワークを構成し、さまざまなメーカー間の競争の焦点として光学画像同時に検出して処理することができ
ます。今日の携帯電話のカメラは1億ピクセルを達成し、カメラの感光デバイスも、本質的にダイオードである典型的な半導体チップです。ニューラルネットワーク操作に使用されるクラスの正確な構造の影響は何ですか?ネイチャー誌の最新の研究によると、速度は従来の処理方法より数千倍速いという。
コンピュータビジョンの場合、レンズはその目であり、豊富な視覚情報を取得した後に処理ユニットに渡すことができ、それに依存してさまざまな視覚機能を実現できます。これはCVの最も一般的なパラダイムであり、私たちの直感に最も一致していますが、2つの大きな問題があることがわかります。
まず第一に、レンズから処理ユニットへの情報の受け渡しは、特にクラウドコンピューティングが使用されている場合、単純な手順ではありません。第2に、処理装置の作業は単純ではなく、視覚的に集中的なコンピューティングモデルは、多くの場合禁止されます。
この最新のNatureの研究では、研究者たちは、イメージセンサー自体がニューラルネットワークを「刻む」こともできることを示しました。ニューラルネットワークは、受光と画像処理の両方の機能を同時に、遅延なく提供できます。さらに重要なのは、このマシン

ビジョンチップは、従来の畳み込みニューラルネットワークより数千倍高速です。チップさえあれば、カメラは数秒でインテリジェント端末になります。

 

 人間の脳のように、新しいチップはナノ秒の速度で単純な画像を認識して分類できます。

高速であることに加えて、チップの基本コンポーネントはフォトダイオードであるため、光のみに依存することによってのみ「生成」および計算を完了することができます。実行速度は、回路内の電子機器の速度によって制限されます。
現在、ウィーン科学技術大学が提出した研究は、3月4日にNature誌に掲載されています。

チップのニューラルネットワークの彫刻

ニューラルネットワークをイメージセンサーに「インプリント」するために、研究者はチップ上にフォトダイオードのネットワークを構築しました。これらのフォトダイオードは非常に小さく、光に非常に敏感です。電圧を変更して各ダイオードの光に対する応答を増減することにより、各ダイオードの感度を調整できます。
実際、これらの光電センサーネットワークはニューラルネットワークと同等であり、単純な計算タスクを実行できます。フォトダイオードの光応答強度を変更すると、ネットワークの接続強度が変化します。これは、ニューラルネットワークの重みに似ています。したがって、チップは光センシングとニューロモーフィック計算を巧みに組み合わせています。

 

 aはニューラルネットワークのダイオードアレイで、同じ色のサブピクセルが並列に接続されます。bはフォトダイオードアレイの単一ピクセルの回路図です。cとdはおなじみのニューラルネットワークモデルで、チップに「埋め込む」ことができます。で。

センサーはピクセルのグループで構成され、各ピクセルはニューロンを表します。同時に、各ピクセルは順番にいくつかのサブピクセルで構成され、各サブピクセルはシナプスを表します。各フォトダイオードは、反応性があり調整可能な2次元半導体である二セレン化タングステン(二セレン化タングステン)の層に基づいています。この調整可能な光応答性は、ニューラルネットワークの重みに似ています。
研究者達は、フォトダイオードは9つのピクセルの正方行列に配置され、それぞれが3つのダイオードを持っていると言います。画像のライトがチップにマッピングされると、さまざまなダイオード電流が生成されて組み合わされ、ハードウェアアレイによって提供されるシミュレーション計算フォームが完成します。つまり、光を感じるとすぐに、オンチップの「ニューラルネットワーク」が計算を開始します。ニューラルネットワークのトレーニングアレイ全体をトレーニングして視覚的なタスクを実行できます。アレイによって生成された電流は予測電流と一致しないため、研究者はコンピューターの重みを分析および調整して、チップのニューラルネットワークを更新できます。トレーニングプロセスには時間とコンピューティングリソースが必要ですが、トレーニングが完了すると、チップは視覚的なタスクをすばやく処理できるようになります。科学者はこれらのフォトダイオード間の接続に基づいてニューラルネットワークを作成し、これらのニューラルネットワークをトレーニングして、画像を文字「n」、「v」、または「z」に分類できます「私たちのイメージセンサーは、動作しても電力を消費しません。」とメンネル氏は言います。




 

 実験では、研究者はレーザーを使用して「v」と「n」をニューラルネットワークイメージセンサーに投影しました。従来のコンピュータービジョンテクノロジーは通常毎秒100フレームを処理できますが、一部の高速システムでは毎秒1000フレームを処理できる場合があります比較すると、メンネル氏は、「当社のシステムは、1秒あたり約2000万フレームを処理できます

 

 aはトレーニング分類器とセルフエンコーダの実験構成、bは時間分解を測定するための実験設定、cは光学実験のクローズアップ写真です。

Mennel氏は、システムの速度はチップ内の電子機器の速度によってのみ制限されると述べた。原則的に、この戦略はより速く、既存の視覚的な方法よりも、ピコ秒以内に完了することができます3ダオ4桁。
実験では、文字認識モデルと分類モデルに加えて、セルフエンコーダモデルもテストしました。このモデルに信号ノイズが存在する場合、センサーコンピューティングアレイは画像の主要な特徴を学習し、それをデコードして、元の画像に近い生成されたマップを構築することもできます。トレーニングが完了する限り、この教師なし生成モデルの推論速度も非常に高速です。

それで、チップの用途は何ですか?
そのようなセンサーの用途は何ですか?「この段階では、このテクノロジーは主に、流体力学、燃焼プロセス、機械的故障処理などの特定の科学的研究に使用されています。」とメンネル氏は述べた。「自動運転におけるマシンビジョンなどのより複雑なタスクについては、 「
この種の感光性+コンピューティングチップは、実用化されるまでにはまだ長い道のりがあります実際の視覚情報については、3次元情報、動的画像、ビデオタイムラインも含まれます。ただし、現在のイメージセンシング技術では3次元から2次元への圧縮しかできず、チップは多くの情報を失います。
同時に、著者は、検出可能な光強度の範囲を拡大するために、チップは薄暗い条件で再設計する必要があると述べました。この「再設計」には高い圧力が必要であり、多くのエネルギーを消費します。最後は半導体製造能力であり、このような極薄半導体は大面積での生産が難しく、加工も難しい。
ただし、多くの障害があるにもかかわらず、ニューラルネットワークを光感知機能と組み合わせて、光を受けながら電流を生成し、電流を生成しながら視覚タスクを完了することは非常に興味深いことです。

おすすめ

転載: www.cnblogs.com/wujianming-110117/p/12723859.html