ヒューマン コンピュータ インタラクション ペーパーの紹介—EarBuddy: ワイヤレス イヤフォンによる対面インタラクションの実現

     これは、清華大学のチームが 2020 年 4 月に CHI で発表した論文で、「Enabling On-Face Interaction via Wireless Earbuds」、つまり、ワイヤレス ヘッドフォンを介した顔でのインタラクションについて研究者らは、マイクを使用した Ear Buddy リアルタイム システムを提案しました。市販のワイヤレス ヘッドセットを使用して、顔や耳の近くのタップやスワイプのジェスチャを検出します。
     全体的に, この論文は合計 3 つの研究を実施しました. 開発者は包括的なデザイン空間を確立し, 人間の顔と耳の側面に 27 のジェスチャをデザインしました. ユーザーは 27 のジェスチャすべてを実際に記憶することはできませんし, 一部のジェスチャはシステムによって簡単に検出されません.そこで、開発者はユーザー調査を実施し、ユーザーの好みとマイクの検出可能性に基づいて、設計されたジェスチャー セットを 8 つのジェスチャーに絞り込みました。2 番目のユーザー調査では、研究者らは静かな環境と背景雑音環境の両方でこれらのジェスチャーを含む完全なデータセットを収集し、そのデータを使用して浅いニューラル ネットワークのバイナリ分類器をトレーニングしてジェスチャーを検出し、深い DenseNet を使用してジェスチャーを分類しました。最後に、これらのモデルを使用して EarBuddy のリアルタイム実装が構築され、EarBuddy の使いやすさを評価するために 3 回目のユーザー調査が実行されます。


    

1. システム設計 EarBuddy

ジェスチャは 2 つのステップで認識されます。まず、ジェスチャ検出器はジェスチャが存在するかどうかを判断します。ジェスチャが検出された場合、

分類器がジェスチャを認識します。図 2 は、システムの全体的な配管を示しています。

ジェスチャーを検出する

検出は、ステップ サイズ 40 ミリ秒の 180 ミリ秒のスライディング ウィンドウを使用して開始されます。各ステップで 20 個の MFCC がウィンドウから抽出され、バイナリ ニューラル ネットワーク分類器に入力されます。分類器は、ジェスチャに属する音声コンテンツがある場合は常に 1 を出力し、それ以外の場合は 0 を出力します。

(FCNN ネットワークは、その名前が示すように、ニューラル ネットワークが畳み込み層で構成されているということです。古典的な CNN ネットワークとの違いは、CNN ネットワーク内のすべての全結合層が畳み込み層に置き換えられることです。

FCNN ネットワークは画像をピクセル レベルで分類できるため、画像のセグメンテーションの問題を意味レベルで解決できます。FCNN ネットワークは、任意のサイズの入力画像を受け入れることができ、デコンボリューション層を使用して最後の畳み込み層の特徴マップをアップサンプリングして入力画像と同じサイズに復元し、各ピクセルを生成できるようにします。元の入力画像の空間情報を抽出し、最後にアップサンプリングされた特徴マップ上でピクセルごとの分類を実行します。)

(音声認識と話者認識で、最も一般的に使用される音声特徴はメル ケプストラム係数 (略して MFCC) です。

MFCC 抽出プロセスには、前処理、高速フーリエ変換、メル フィルター バンク、対数演算、離散コサイン変換、動的特徴抽出などのステップが含まれます。

前処理: オーディオ信号のフレーミングとウィンドウ処理。オーディオ信号自体は非定常信号であり、主に発声器官の予測できない動きによって引き起こされる短期間の変動により、直接処理して分析することができません。しかし、発声器官の状態変化速度は音の振動速度に比べてはるかに遅いため、安定した信号を得るためにフレームごとの処理方法を採用することができます。信号が短時間で安定すると仮定すると、通常、その値はフレームとして 20 ~ 40ms の間になります。


フーリエ変換:信号を時間領域から周波数領域に変換する変換形式

メル フィルター バンク: エネルギー スペクトルを一連のメルスケール三角フィルター バンクに通過させます。

(1)三角形は、低周波数では密であり、高周波数では疎であり、低周波数における人間の耳の高解像度特性を模倣することができる。

(2) スペクトルを滑らかにし、倍音の影響を除去し、元の音声のフォルマントを強調します。

(3) フーリエ変換によって得られる系列は非常に長いため、各三角形の下のエネルギーに変換することでデータ量を削減できます。

対数演算: 対数演算には、絶対値演算と対数演算が含まれます。絶対値をとる場合は振幅値のみを使用し、位相の影響を無視します。これは、位相情報が音声認識にほとんど影響を及ぼさないためです。

対数演算を行うのは、人間の知覚が周波数の対数に比例するためであり、たまたま対数シミュレーションを使用しているからです。

離散コサイン変換:各フィルターポイントの信号に対して離散コサイン変換を行い、ピッチ情報とチャンネル情報を分離し、12次元のMFCC特徴を得ることができます。

動的特徴抽出:標準ケプストラム パラメータ MFCC は、音声パラメータの静的特性のみを反映します。音声の動的特性は、時間の経過に伴うMFCC の軌跡など、これらの静的特徴の差分スペクトルによって説明できます。MFCCの軌道変更を加えることで認識効果が向上します。したがって、現在のフレームの前後のいくつかのフレームの情報を使用して 1 次および 2 次の差分を計算しフレームのエネルギーに対して1 次および 2 次の差分を実行することもできます最終的に 39 次元の MFCC 特徴ベクトルが得られます。


ほとんどすべてのジェスチャは 3 つ以上の単一ステップ (>120 ミリ秒) を必要とするため、ジェスチャの存在により分類器は複数の 1 を連続して生成するはずですが、データの時間的変化とノイズによって分類器のシリアル出力にノイズが多くなる可能性があります。 。EarBuddy は、隣接する連続する 1 シーケンスが 1 つまたは 2 つの 0 で区切られている場合にマージする多数決スキームを使用して、この問題を解決します。ジェスチャは、1 が 3 つ以上連続する限り存在すると定義されます。これは、ジェスチャの最小継続時間 120 ミリ秒に相当します。ジェスチャが発生するたびに、EarBuddy は 1 つのシーケンスを中心とした 1.2 秒の生のオーディオ クリップ (ジェスチャの 99% 以上をカバー) を取得し、それをジェスチャ分類器に供給します。

音声データは、180 ミリ秒のウィンドウと 5.36 ミリ秒のステップ サイズで短時間フーリエ変換を適用することによって生成されたメル スペクトログラムを使用して分類のために処理され、長さ 224 の線形スペクトログラムが生成され、スペクトルは次のように変換できます。 224 ビットのメル スペクトル。EarBuddy がオーディオ信号をメル スペクトログラムに変換すると、1 次元のオーディオ信号が 2 次元の画像形式に変換されます。


メル スペクトログラム: スペクトログラムは、メル スケールによって得られたグラフに基づいています。スペクトルは、さまざまな周波数での信号の分布を表します。しかし、実際の主観的な実験を通じて、科学者は人間の耳が低域と低域の違いにより敏感であることを発見しました。周波数信号とそれより高い周波数信号では、その差はそれほど敏感ではありません。つまり、低周波帯域に 2 つの周波数があり、高周波帯域に 2 つの周波数がある場合、人は前者を区別しやすくなります。したがって、周波数領域で等しい距離を持つ 2 つの周波数のペアは、人間の耳にとって必ずしも同じ距離を持つとは限りません。

したがって、周波数領域のスケールを調整することにより、この新しいスケール上の等しい距離にある 2 つの周波数のペアが人間の耳と等しくなる、いわゆるメルスケールになると考えられています。

メルスケールは 1930 年頃に提案され、現在でも広く使用されています。


研究者は、移行学習のために、VGG16 [58]、ResNet [22]、DenseNet [25] などの事前トレーニング済みの視覚モデルを調査しました。観察によると、事前トレーニング済みの DenseNet には、より多くの利点があることがわかりました。パラメータの数が比較的少ないため、データに対して最高の精度が得られるパラメータはほとんどありません。

 

この論文の DenseNet は、1 つの畳み込み層、4 つの高密度ブロック、および中間遷移層を備えたネットワークです。

次に、この DenseNet を調べました(これは、入力に近い層と出力に近い層の間の短い接続が含まれている場合、ConvNet をより深く、より正確に、より効率的にトレーニングできるという考えに基づいています。高密度畳み込みネットワーク (DenseNet) は次のとおりですコーンウェル大学、清華大学、Facebook AI Research (FAIR) が共同で提案した2017の CVPR で最優秀論文賞を受賞した論文です フィードバック手法は 1 つの層が他の層ごとに接続されます, 以前のすべての層の特徴マップが入力として使用され、独自の特徴マップが後続のすべての層の入力として使用されます。DenseNet には、いくつかの魅力的な利点があります。パラメータの数を減らしてください。)

図に示すように、密ブロックでは、各層は前のすべての層から特徴マップを受け取ります。ここで、上記の H l (⋅)関数は非線形変換関数を表します (一連の BN (バッチ) を含む組み合わせ演算です)正規化)、ReLU、プーリング、および Conv 操作。

1×1 Conv および 2×2 平均プーリングは、2 つの連続する密ブロック間の遷移層として使用され、主に 2 つの隣接する密ブロックを接続し、特徴マップ サイズを削減します。

密なブロック内の特徴マップは同じサイズであり、チャネル次元で連結できます。

(BN理由:ネット​​ワークの深さが深くなるにつれて、各層の固有値の分布は徐々に活性化関数の出力区間(活性化関数の飽和区間)の上限と下限に近づき、これが続くと、 BN はこの層の特徴量分布を標準正規分布に戻す手法により、活性化関数が入力に対して感度の高い範囲に特徴量が収まります。損失関数の変化が大きくなり、勾配が大きくなり、勾配の消失が回避される可能性があります。また、収束も高速化されます。)

このアーキテクチャは、事前トレーニング後に、最後の完全接続層を 2 つの完全接続層 (その間にドロップアウト層と ReLU アクティベーション関数を含む) に置き換えることによって変更されます。DenseNet はデータセットに対して 1000 の可能な出力クラスを生成するため、出力レイヤーを変更する必要がありますが、EarBuddy ははるかに少ない数 (ジェスチャごとに 1 つ) を必要とします。最後に、変更された事前トレーニング済みネットワークがデータセットでトレーニングされ、EarBuddy で使用される最終的な分類モデルが生成されます。

( ドロップアウト機能:各トレーニング中に一定数の畳み込みをランダムに停止します。これにより、ネットワークの汎化能力が向上し過剰適合が軽減されます)


インタラクション デザインでは、インタラクションに使用できる合計 7 つの領域が図に特定されており、顔上のジェスチャの位置と指の動きは、研究者のデザイン空間を定義する 2 つの次元です。図に示すように、これら 2 つを使用して、3 次元ですべての実行可能なオプションのペアに対して合計 27 のジェスチャが生成されます。そのうち 14 はタップベースのジェスチャ、13 はスワイプベースのジェスチャです。


研究者らは、27 のジェスチャーのセットを、自然に実行でき、すぐに覚えられ、簡単に分類できるサブセットに絞り込みたいと考え、最適なジェスチャーを含むセットを特定する研究を実施しました。

16 人の参加者 (男性 8 人、女性 8 人、年齢 = 21.3 ±0.9) が募集され、研究は周囲の騒音レベルが約 35 ~ 40 dB の静かな部屋で実施されました。各参加者は、27 のジェスチャーすべてを右手で 3 回実行しました。

ジェスチャーを 3 回実行した後、参加者は次のことを求められました。

ジェスチャーは 3 つの基準に基づいて採点されます (1: 非常にそう思わない ~ 7: 非常にそう思う)。

• シンプル: 「ジェスチャを簡単に正確に実行できます。」

 • 社会的受容性: 「そのジェスチャーは社会的懸念なしに実行できます。」 (つまり、行動学的に受容可能であり、押し付けがましくありません)

• 疲労: 「このポーズをすると疲れたように感じます。」 (注: リッカートスコアは分析のために逆にされています)

彼らは次の側面を使用して最適なジェスチャーを選択します。

  1. SNR。各サンプルの信号対雑音比 (SNR) を計算し、平均 SNR が 5 dB 未満のジェスチャを削除しました。これにより、8 つのジェスチャが削除されます。その多くは、ボトムアップまたは複雑なスワイプ ジェスチャであるスワイプ ベースのジェスチャです。
  2. 信号の類似性。生データに対してダイナミック タイム ワーピング (DTW) [54] を使用して、ジェスチャ ペア間の信号の類似性を計算します。合計距離が 25% 未満のジェスチャは、分類中に混乱する可能性が最も高いため削除されました。
  3. デザインの一貫性。これまでの研究では、シングルタップ ジェスチャとダブルタップ ジェスチャが設計空間で同時に発生することが多い、つまり、インターフェイスがシングルタップ ジェスチャをサポートしている場合、通常はダブルタップ ジェスチャもサポートしていることが示されています。したがって、この時点より前にシングル タップ ジェスチャが却下されるたびに、対応するダブル タップ ジェスチャが削除され、その逆も同様です。
  4. 好み。ユーザーの主観的な評価を使用して、残りのジェスチャを決定します。

最終的に、6 つのタップ ジェスチャと 2 つのスワイプ ジェスチャを含む 8 つのジェスチャが残ります。

次に、EarBuddy の検出と分類の精度を評価するための 2 番目の研究が行われ、この研究は 2 段階で行われ、1 つは静かな環境で、もう 1 つは騒々しい環境で行われまし

データ収集中、参加者は 2 つのセッションで 5 ラウンドで各ジェスチャを 10 回実行するように求められました。

したがって、各ジェスチャの 100 例が各参加者に対して生成されました (10 例/ラウンド × 5 ラウンド/セッション × 2 セッション)。EarBuddy の検出精度を検証するために、参加者はラップトップ画面上のカウントダウンと一致する時間ジェスチャーを実行するように求められました。これは、タイマーが 2 秒間カウントダウンし、その後参加者がジェスチャを完了するまでにさらに 2 秒かかることを意味します。この 4 秒間で音声が録音され、ジェスチャありまたはジェスチャなしで音声がキャプチャされました。


EarBuddy の実現可能性をテストするために、研究者らはこの研究で収集したデータを使用して 2 つのモデル、1 つはオーディオのセグメント化 (つまり、ジェスチャー検出) 用、もう 1 つはクリップ内のジェスチャーの認識 (つまり、ジェスチャー検出) 用のモデルをトレーニングしました。

彼らは、収束を高速化するために運動量パラメータ 0.9 と、過学習を防ぐために重み減衰正則化パラメータ 0.0001 [30] を使用してトレーニングのオプティマイザとして SGD (確率的勾配降下法) を使用します。勾配ウォームアップ法 [17] とコサインバーンオフ法を組み合わせて学習率を更新します。

コサイン アニーリング:勾配降下法アルゴリズムを使用して目的関数を最適化する場合、損失関数のグローバル最小値に近づくと、モデルをこの点にできるだけ近づけるために学習率を小さくする必要があるため、学習率を小さくする必要があります。減衰した。コサイン関数の特徴は、独立変数 x の増加に伴って、コサイン関数の値が最初はゆっくりと減少し、その後加速し、その後減速することであるため、コサイン関数は学習率を下げるためによく使用されます。

勾配ウォームアップ法: トレーニングの開始時にモデルの重みがランダムに初期化されるため、このときに大きな学習率を選択するとモデルが発振する可能性があります。ウォームアップ (Warmup) 学習率をトレーニングする方法を使用すると、最初の数サイクルの学習率が小さくなり、より小さい学習率のウォームアップ下でモデルが徐々に安定します。モデルがより安定したら、プリセット設定を使用します。レートはトレーニングに使用されます。これは、モデルの収束速度を高速化するのに有益であり、モデル効果が向上します。)

学習率は 0.01 から始まり、20 エポックで 0.1 まで増加し、次の 400 エポックでコサイン曲線で減衰します。

このような学習率スケジュールには、高速収束 (開始時の学習率が大きい) と堅牢な収束 (終了時の学習率が小さい) という利点があります。


上の図は、表 2 の最良のモデルに基づく 8 つのジェスチャの混同行列を示しています。3 回のダブルタップ ジェスチャ (97.3%) が最も高い精度を示し、次に 3 回のシングルタップ ジェスチャ (94.4%)、2 回のスワイプ ジェスチャ (93.1%) でした。


図:評価研究の結果。上) タスクを完了する時間です。下)3 つの設定の主観的なスコアリング


一般に、 EarBuddy は便利な入力方法として使用できます。ただし、EarBuddyは繰り返しの使用には適していません。

テキスト入力やインターフェイスのスクロールなどの継続的なインタラクション。

ユーザーは多くの場合、スワイプ ジェスチャよりもタップ ジェスチャを好みます。スワイプ ジェスチャと比較すると、タップ ジェスチャの平均単純さスコアは同様でしたが、社会的受容性 (4.6 対 3.9) と疲労スコア (4.8 対 3.7) が高くなりました。さらに、単純なスワイプ ジェスチャは、複雑なジェスチャよりも好まれました。これは、後者は社交性が低く (2.6)、疲れやすい (3.0) と考えられていたためです。

おすすめ

転載: blog.csdn.net/gx19990824/article/details/127768231