脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈

https://mp.weixin.qq.com/s/fyXVvmpl_12sS-khxuYcPQ

By 超神经

场景描述:利用神经网络将人说话时,相应大脑区域的神经信号进行解码,然后使用循环神经网络将信号合成为语音,可帮助语言障碍患者解决语言沟通问题。

关键词:循环神经网络 解码器 脑机接口 语音合成

「マインドリーディング」は本当に実現するかもしれません。

話すことはほとんどの人にとって珍しいことです。しかし、これらの病気に苦しんでいる人は世界中にまだたくさんいます:脳卒中、外傷性脳損傷、パーキンソン病、多発性硬化症、筋萎縮性側索硬化症(ALSまたはルーゲーリック病)などの神経変性疾患そして、彼らはしばしば話す能力を失い、それは不可逆的です。

科学者たちは人間の機能の回復と神経の修復に力を尽くしており、脳コンピュータインターフェイス(BCI)は重要な領域です。

脳とコンピュータのインターフェースとは、人間または動物の脳と外部機器との間に直接接続され、脳と機器間の情報交換を実現することを指します。

脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈
脳とコンピュータのインターフェースの「脳」とは、脳
だけでなく脳や有機生命体の神経系を指します

しかし、脳とコンピュータのインターフェースは常に遠い概念であったようです。今日、トップの学術誌「Nature」に発表された論文「音声合成の神経解読からの音声合成」(「音声合成の神経解読からの音声合成」)は、脳とコンピューターのインターフェースの分野における研究が一歩進んだことを見てみましょう。ストライド。

言語障害を持つ人々の窮状

実際、脳とコンピュータのインターフェースに関する研究は、40年以上にわたって行われてきました。しかし、これまでのところ最も成功した最も人気のある臨床アプリケーションは、人工内耳などの感覚修復技術のみです。

これまでのところ、深刻な言語の壁を抱えている一部の人々は、自分の考えを逐語的に表現するためにのみ支援機器を使用できます。

これらの支援デバイスは、非常に微妙な目や顔の筋肉の動きを追跡し、患者のジェスチャーに基づいて単語や文章を綴ることができます。

物理学者ホーキングは、かつてそのような装置を彼の車椅子に取り付けました。

脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈
ホーキングは音声シンセサイザーに依存して「話す」。彼は多くの補助通信システムを使用してきた

その時、ホーキングは赤外線によって検出された筋肉の動きに依存してコマンドを発行し、コンピューターのカーソルによってスキャンされた文字を確認し、彼が望むテキストを書きました。その後、テキスト読み上げデバイスを使用して単語を「読み上げ」ます。私たちが彼の本「A Brief History of Time」を見ることができるのは、これらの黒いテクノロジーの助けを借りてです。

ただし、このようなデバイスを使用してテキストや合成音声を生成するのは面倒であるだけでなく、エラーが発生しやすく、合成速度は非常に遅く、通常は1分あたり最大10ワードまで可能です。ホーキングはすでに高速でしたが、15〜20語しか綴ることができませんでした。自然な発話は、1分あたり100から150ワードに達することがあります。

さらに、この方法も、オペレーター自身の運動能力によって厳しく制限されます。

これらの問題を解決するために、脳とコンピュータのインターフェースの分野では、大脳皮質の対応する電気信号を音声に直接解釈する方法を研究しています。

ニューラルネットワークが脳の信号を解釈して音声を合成する

今日、この問題は突破口を開いた。

カリフォルニア大学サンフランシスコ校の脳神経外科教授であるエドワード・チャンと彼の同僚は、出版された論文「音声センテンスの神経復号化のための音声合成」で、彼が作成した脳コンピュータインターフェースが、人々がそれらを話して合成するときに生成される神経信号をデコードできることを提案しましたボイス。システムは、通常の人間の発話速度に近い、1分あたり150ワードを生成できます。
脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈

この論文の最初の執筆者であるGopala Anumanchipalli
は、現在の研究で脳活動を記録するために使用される頭蓋内電極の例を保持しています。

研究チームは、治療中の5人のてんかん患者を募集し、何百もの文章を声に出して話すように求め、同時に彼らの高密度脳波(ECoG)信号を記録し、脳の音声生成センターを追跡しました-腹側感覚運動皮質の神経活動。

研究者たちは、リカレントニューラルネットワーク(RNN)を使用して、収集した神経信号を2つのステップで解読しました。

最初のステップで、彼らは神経信号を、顎、喉、唇、舌の動作に関連する脳信号を含む、音声器官の動作を特徴付ける信号に変換しました。

2番目のステップは、デコードされた音声器官の動作に基づいて、信号を話し言葉や文章に変換することです。

脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈
音声合成を実現するための脳とコンピューターのインターフェースのステップの図解

解読プロセスでは、研究者は最初に、患者が話しているときに3つの脳領域の連続的な電位図信号を解読します。これらの電位図信号は、侵襲性電極によって記録されます。

復号化後、33種類の音声器官の運動特性指標を取得し、これらの運動特性指標を32の音声パラメータ(ピッチ、発声など)に復号化し、最終的にこれらのパラメータに従って音声音波を合成します。

合成音声と実際の音声の精度を分析するために、研究者は元の音声と合成音声の音波特性を比較し、ニューラルネットワークによってデコードされた音声が患者の元の文の単一の音素を完全に再現していることを発見しました、そして音素間の自然な接続と一時停止。

脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈
元の音声音波(上)と合成音声音波(下)の比較

その後、研究者たちはクラウドソーシングを使用して、デコーダによって合成された音声をネチズンが認識できるようにしました。最終的な結果として、合成音声コンテンツを読み直すリスナーの成功率は70%近くになります。

さらに、研究者は無声音声に対するデコーダの音声合成機能もテストしました。テスターは最初に文を発声し、次に同じ文を静かに発声しました(動作はしますが音はしません)。結果は、サイレントアクション用にデコーダーによって合成された音声スペクトルが、同じ文の有声スペクトルに類似していることを示しています。

話し言葉の神経解読の音声合成デモ

マイルストーン:課題と期待が共存する

「この研究は、個々の脳の活動に基づいて完全な話し言葉を生成できることを初めて示しています。これはエキサイティングです。これはすでに手が届いている技術です。私たちは構築できるはずです臨床的に実現可能な装置です。」

脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈
エドワード・チャン博士の研究は、
スピーチ、動き、人間の感情の脳メカニズムに焦点を当てています

論文の最初の執筆者であるGopala Anumanchipalli氏は、次のように述べています。「神経障害の患者を支援するこの重要なマイルストーンの一部として、神経科学、言語学、機械学習の専門知識を利用できることを誇りに思います。」

もちろん、100%音声合成の脳とコンピューターのインターフェースによる音声対話を実現するには、患者が侵襲性の手術で電極を取り付けることができるかどうか、実験の脳波が実際の患者の脳波と同じかどうかなど、まだ多くの課題があります。

しかし、この研究から、音声合成の脳とコンピューターのインターフェースはもはや概念ではないことがわかります。

将来のある日を楽しみにして、言語障害を持つ人々は、できるだけ早く「話す」能力を取り戻し、できるだけ早く自分の感情を表現することができます。

ハイパーニューロペディア

フィードフォワードニューラルネットワーク

フィードフォワードニューラルネットワークは、人工知能の分野で発明された最も初期の単純な人工ニューラルネットワークです。その内部では、パラメーターは入力レイヤーから出力レイヤーに一方向に伝播します。再帰型ニューラルネットワークとは異なり、内部に有向リングは形成されません。

フィードフォワードはフォワードとも呼ばれます。シグナルフローの観点からは、入力信号がネットワークに入った後、シグナルフローは一方向です。つまり、信号は前のレイヤーから次のレイヤーに流れ、出力レイヤーに至るまで、いずれか2つです。接続間にフィードバックはありません。つまり、信号は次の層から前の層に戻りません。入出力関係からわかると、入力信号が入ったときに、入力層以降の各層は、前の層の出力を入力として使用します。

フィードフォワードニューラルネットワークのレイヤー間の信号が逆方向に流れる、または自己入力である場合、この種のネットワークをリカレントニューラルネットワークと呼びます。

ディープフィードフォワードネットワークでは、チェーン構造はレイヤー間の接続であり、レイヤーの数はネットワークの深さを表します。
脳とコンピューターのインターフェースの分野における新たなマイルストーン:メンタルスピーチ、機械解釈

おすすめ

転載: blog.51cto.com/14929242/2535451