【论文阅读】大規模教室での授業への生徒の取り組みを監視するためのインテリジェントなシステム

【论文阅读】表情認識を通じて大規模教室での生徒の授業への参加を監視するインテリジェントなシステム

まとめ

このブログは、 2021年にWILEYのExpert Systemが収集した論文「表情認識を通じて学生の参加を大規模教室で監視するためのインテリジェントなシステム」を参照し、理解と記憶を深めるために主な内容を要約したものです

1 はじめに

1)大規模なオフライン教室管理システムは、教師が出席状況の追跡、教室でのフィードバックの収集、生徒の参加や注意の監視などの重い活動の負担を軽減するのに役立ち、それによって最高の指導効果を高めることができます。近年、活発かつ挑戦的な研究分野となっています。

2) 生徒が教室での学習に参加することが必要であり、これにより教室での全体的な学習の質と学業の進歩が向上します (De Villiers & Werner、2016)。現在、集中力持続時間の短さ、教師と生徒の相互作用の欠如、不完全な指導方法などのさまざまな理由により、生徒の学習意欲の低下の問題が増大しています(Bradbury, 2016; Lamba et al, 2014)。大規模なオフライン教室 (生徒数が 60 名を超える) では、この問題がさらに悪化する可能性があります。経験豊富な教師は、少人数のクラスでの生徒の行動や相互作用を観察することで、生徒の関与を監視できます。しかし、これらの経験豊富な教師でさえ、クラスサイズが増加し、人為的な制限のために生徒数のしきい値を超えて拡大できないため、困難に直面しました(Exeter et al、2010)。さらに、多くの大学 (特に高等教育機関) では、教師全員が経験豊富な教育専門家を擁しているわけではありません。多くの場合、生徒の関与と関与を高めるための指導や指導スキルの向上のためのトレーニングや時間がほとんどまたはまったく割り当てられていません。指導力を向上させたいと考えている教師にとって、指導スキルに対する適切なフィードバックの機会の欠如など、いくつかの課題が残っています。現在、この種の専門能力開発に最も効果的な方法は、人間の専門家を雇って 1 つ以上の講義を観察し、講師に個別の形成的なフィードバックを提供することです。もちろん、これには費用がかかり、拡張性がなく、さらに重要なことに、教師への継続的な学習フィードバック ループが妨げられます。したがって、この研究で提案された生徒の関与を監視するための自動化されたアプローチは、初心者教師の専門能力開発を大規模にサポートすることができ、また、経験豊富な教師が生徒の関与と大規模なクラスでの教育プロセス全体を評価および改善するのにも役立つ可能性があります。

3) 教育研究文献では、学生の参加は複数の側面と要素を持つものとして定義されています。Fredricks et al. (2004) は、行動的関与、感情的関与、および認知的関与という3 つの方法でそれを定義しました。行動関与とは、正しい姿勢やメモの書き方など、学習中の行動行動を指します。感情的な関与とは、注意、退屈、フラストレーションなど、学習に対する肯定的および否定的な感情的反応を表します。認知的関与は、問題解決、知識、創造的思考などの認知能力を高める学習につながります。(Li, Y., & Lerner, RM 2013) によると、行動と感情的な関与は双方向に関連しています。さらに、行動的な関与は、学習プロセスの重要な結果である認知的な関与に影響を与えます。この研究 (Satik & Jonathan、2013) は、学生の顔の表情が行動や感情状態と有意に相関しており、これが講義への参加レベルを特定するのに役立つことを統計的に証明しました。

4) Whitehill et al (2014) は、学生のエンゲージメント評価方法を3 つのカテゴリ、すなわち手動方法、半自動方法、および自動方法に分類しました。

① 手動による方法には、紙またはコンピュータベースの自己報告書 (Haddad 2014)、全国学生参加調査 (NSSE) (Kuh, GD 2003)、学生参加調査 (SEI) (Appleton et) などの調査ベースの方法が含まれます。 al.、2006)、観察チェックリストと評価スケール(Odiri Amatari、2015; Dzelzkaleja & Kapenieks、2016)の方法。これらの方法は依然として手間がかかり、退屈で断続的であり、偏見の影響を受けやすいものです。

② 半自動手法には、知識追跡手法生理学的手法に基づく手法が含まれます。

  • ナレッジトラッキングでは、教師は指導中の質問に対する生徒の反応を評価することで生徒の関与を評価します。(Griol, D., et al. 2017; Mogwe, aw 2018) を使用して、この方法を簡単に実行できます。
  • 生理学的ベースのアプローチでは、フィットネス リストバンドや皮膚電気活動センサーなどのウェアラブル デバイスを使用して、脳信号 (脳波 [EEG]) や心臓信号 (心電図 [ECG]) などの生理学的信号を処理することによって、生徒の取り組みが監視されます。ら、2018)。これらの半自動手法には、人間の介入の影響を受けやすく、費用がかかるなどの制限があります。

さらに、生理学的信号を測定するために、さまざまなウェアラブル皮膚電気活動センサーがケーブルを介してユーザーに取り付けられるため、長時間装着することが困難になります (Dirican & Göktürk、2011)。

③自動化された方法には、高精細度(HD)監視カメラで撮影されたビデオ内の顔の表情や頭の視線などの非言語的手がかりを分析することによって生徒の関与を測定する視覚ベースの方法が含まれます。この自動化された方法は、オンラインまたはオフラインの教室での学習など、あらゆる学習環境における生徒の関与を測定するための、非侵入的、効果的、シンプル、公平、かつ安価な方法です。

5) 感情コンピューティング、コンピューター ビジョン、ディープ ラーニングなどの人工知能テクノロジーの進歩は、自動エンゲージメントモニタリング システム (AEMS)の開発に使用されますAEMS は、人間の介入なしに非言語的な合図を分析することにより、生徒の参加を自動的に監視し、報告します。学生の学業上の感情状態 (感情や気分など) を分析すると、学生の取り組みや行動をリアルタイムで自律的に監視および分析するスマートな教室を構築できる可能性があります最近の文献では、教育分野で AEMS を開発するために生徒の行動的および感情的な手がかりを利用する多くの研究が提案されています。

  • その中で、ほとんどの作品は、単一のビデオ フレーム内の 1 人の生徒の e ラーニング環境を扱っています (Bosch et al. 2016; Krithika, L. & GG 2016; Ruipsamurez-Valiente et al. 2018; Sharma et al. et al. 2016)。 2019; Mukhopadhyay et al. 2020; Bhardwaj, P. et al. 2021)。
  • 一部の作品は、1 つのビデオ フレーム内に複数の生徒がいるオフラインの教室環境をサポートしています (Zaletelj & Košir, 2017; Klein & Celik, 2017; Thomas & Jayagopi, 2017; Soloviev, 2018; Ashwin & Guddeti, 2019; Zheng Ru, et al. 2020; Luo Zhong ら、2020; Vanneste ら、2021;Peng, S. ら、2021)。

大規模なオフライン教室環境の場合、これらの作業のほとんどはスケーラビリティの問題に悩まされており、生徒数の参加をリアルタイムで推定することができません。さらに、これらの作品は、幸福、怒り、恐怖、悲しみ、驚きなどの基本的な感情を注意力推定のための感情的手がかりとして使用していますが、これは学術的な環境には適していません以前の研究では、学術的な感情と基本的な感情の間にはいくつかの違いがあることが実証されています(Pekrun, 2000)

6) 著者の仕事と解決された問題

仕事:

① 基本的な感情によって表現されない(Wei, Q., et al. 2017)。この研究では、学習環境に関連する 6 つの意味のある学術的感情状態、すなわち「退屈」、「混乱」、「集中」、「イライラ」、「あくび」、「眠い」を使用しました (D'mello, S . 2013; Tonguç & オズカラ、2020)

② 授業動画から学生の顔から学術的感情を抽出するための表情データセットを作成した。このデータセットは、3 つの公開データセット、BAUM-1 (Zhalehpour et al. 2016)、DAiSEE (Gupta et al. 2016)、Kamath et al. 2016)、および YawDD (Abtahi et al. 2014) 、March) からの同様の表情サンプルを追加しています。データセットサンプルを増やすには

③ この種の作業において考慮すべき倫理および学生データのプライバシー問題にどのように対処するか

解決された問題:

① 大規模なオフライン教室ビデオの各フレームで各生徒の顔を検出できますか?

②表情を通して生徒の学業上の感情状態を認識することはできるでしょうか?

③ビデオフレームごとに個々の学生グループの参加スコアを計算できますか?

④十分なコンピューティングリソースを使用して、学生の全体的な参加をリアルタイムで推定できますか?

⑤ AEMS モデルと自己申告による推定学生インプットとの相関関係を検証できますか?

2.関連作品

1) シングルプレイヤーシングルフレーム

  • Whitehill et al. (2014) は、生徒の表情や行動パターンを分析することで、e ラーニング環境における生徒の取り組みを分類する機械学習ベースのシステムを提案しました。彼らの実験では、ガボール特徴を備えた SVM が、曲線下面積 (AUC) 値 0.729 で生徒の参加を分類するのに最も優れた性能を発揮したと結論付けました。
  • この研究 (Bosch et al.、2016) では、コンピューター ビジョンと機械学習アルゴリズムを使用して、コンピューター上で教育ゲームを操作している際の生徒の顔の表情や体の動きの影響を検出しました。彼らは、SVM、デシジョン ツリーなど、このために 14 の異なる機械学習モデルを構築しました。AUC 値で測定した各感情状態の分類精度:退屈 (0.61)、混乱 (0.65)、幸せ (0.87)、夢中 (0.68)、憂鬱 (0.63)。
  • Krithika, L. & GG (2016) は、e ラーニング環境で生徒の感情を特定および監視し、生徒の集中レベルに関するリアルタイムのフィードバックを提供できるシステムを開発しました。彼らは、興奮、退屈、あくび、眠気、異常な頭と目の動きのパターンなどの感情を利用して、集中力を予測しました。
  • この研究 (Sharma et al 2019) は、学生の基本的な表情を分析することによって、e ラーニング環境における学生の関与をリアルタイムに推定するシステムを提案しています。彼らは、70% の検証精度で CNN ベースの感情認識モデルをトレーニングしました。
  • Zhang, H. et al. (2019) は、DAiSEE データセットのインフレート 3D 畳み込みネットワーク (I3D) に基づいた、オンライン学習環境における生徒の参加認識システムのバイナリ分類モデルを提案しました。バイナリ エンゲージメント分類では、エンゲージメントと非エンゲージメントの両方で 0.98% の精度を達成しました。
  • Mukhopadhyay et al. (2020) は、基本的な表情を組み合わせることで、オンライン学習における生徒の感情状態を評価する方法を提案しました。彼らは、FER2013 データセットを使用して畳み込みニューラル ネットワーク (CNN) ベースのモデルを提案およびトレーニングし、62% の分類精度を達成しました。
  • P Bhardwaj et al. (2021) は、基本的な顔の表情を分析することにより、オンライン学習環境におけるリアルタイムの生徒の関与分類のための深層学習ベースのアプローチを提案しました。-

上記のアプローチはすべて、e ラーニング環境における 1 つのビデオ フレーム内の 1 人の学生の自動モニタリングの問題に対処します。したがって、これらの研究は、単一のビデオ フレーム内に複数の生徒がいる大規模なオフライン教室環境での生徒グループの参加を自動的に推定する問題を解決することは不可能です。

2) マルチプレイヤー

  • Zaletelj と Košir (2017) は、非言語的な手がかりを使用して、オフラインの教室環境で生徒の注意力を自動的に推定することを試みました。デシジョン ツリーや k 最近傍アルゴリズムなどの機械学習アルゴリズムを使用して、Kinect One カメラから 2D および 3D の特徴を抽出してモデルを開発しました。彼らのシステムは 0.753% のテスト精度を達成しており、これは予測された注意力​​と人間の注釈によって与えられた実際の注意力を比較することによって評価されます。Kinect カメラの技術的な制限により、分析は教室全体ではなく 6 人の生徒に限定されました。

  • Klein と Celik (2017) は、大規模なオフライン教室環境で教師が肯定的および否定的な行動の合図を使用して生徒の関与についてリアルタイムでフィードバックを提供できるようにする CNN ベースのアプローチである Wits インテリジェント ティーチング システム (Wits) を開発しました。作成された生徒の教室行動データセットを使用して、Alexnet アーキテクチャ (Krizhevsky et al. 2012) に基づくモデルをトレーニングし、89.60% の検証精度を達成しました。この研究では、生徒の関与を推定するために感情的な手がかりは使用されておらず、計算のオーバーヘッドも伴いました。

  • この研究 (Thomas & Jayagopi、2017) では、コンピューター ビジョンと機械学習アルゴリズムを使用して、非言語的な顔の合図に対する生徒の関与を分類しました。彼らは、OpenFace と呼ばれるオープンソースのリアルタイム顔分析ツールボックス (Baltrušaitis et al.、2016) を使用して、27 次元の特徴ベクトルを含む相関特徴のデータセットを作成しました。彼らは、SVM やロジスティック回帰などの機械学習アルゴリズムを使用してデータセットでモデルをトレーニングし、分類精度率はそれぞれ 0.89% と 0.76% に達しました。この研究は、大規模なオフライン教室環境では実施されませんでした。また、生徒のクラス グループ全体のリアルタイムの参加を評価するためのテストは行われていません。

  • Soloviev (2018) は、生徒の基本的な表情をポジティブまたはネガティブな感情として分類することにより、教室のカメラからの視覚データのストリームを継続的に分析するシステムを提案しました。彼らは、2 クラス ブースト決定木 (Adaboost) メソッドを使用してモデルをトレーニングし、84.80% の分類精度を達成しました。この研究では、学生の学習意欲を考慮して、学生の取り組みのレベルを分類していません。

  • この研究 (Ashwin & Guddeti、2019) は、非言語的手がかりを分析し、生徒の参加を 4 つのレベル (「まったく関与していない」、「名目上関与している」、「参加している」課題、「非常に関与している」) に分類する CNN ベースのシステムを開発しました。彼らのシステムは、大規模なオフライン教室設定で顔、手のジェスチャー、体のポーズについてトレーニングおよびテストされ、71% の精度で分類できました。この方法では 1 つの画像フレームを処理するのに 2153 ミリ秒 (2.153 秒) を要し、計算オーバーヘッドが高いことがわかりました。したがって、リアルタイム実装では使用できません。

  • この研究 (Zheng, R. 他、2020) は、教室環境における生徒の挙手、起立、睡眠などの行動を検出できる、インテリジェントな生徒行動監視フレームワークを設計しています。彼らは、修正された Faster R-CNN 物体検出アルゴリズムを使用してモデルをトレーニングし、前述の動作を 57.6% の平均精度 (mAP) で識別しました。このモデルは学生の行動を検出するためにのみ使用されたため、学術的な感情的手がかりを使用して学生全体の関与を予測することはできませんでした。

  • Luo, Z. らによる 2020 年の研究では、階層的および条件付きランダム フォレスト アルゴリズムを含む 3D モデルと、教室環境プラットフォームに対する生徒の関心を推定するための頭の姿勢、顔の表情、スマートフォンを使用したインタラクションが示されています。このモデルは 87.5% の分類精度を達成しました。

  • Peng, S. et al. (2021) は、生徒の精神状態を監視するために、顔の合図、心拍数、聴覚特徴をマルチモーダルに融合することを提案しました。

一連の機械学習アルゴリズム SVM、ランダム フォレスト、多層パーセプトロンは、さまざまなマルチモーダル フュージョン技術を使用してトレーニングされています。上記の 2 つの研究では、生徒のマルチモーダル データを測定するために複数の物理デバイスが必要でしたが、大規模なオフライン教室環境で使用するには費用がかかります。

  • この研究 (Vanneste et al、2021) では、挙手やメモを取るなどの生徒の行動を認識することで、教室環境における生徒の参加を評価する手法を紹介しています。彼らはこれらの行動を認識するために深層学習モデルをトレーニングし、63 パーセントの再現率と 45 パーセントの適合率を達成しました。この研究では、リアルタイムのエンゲージメント評価のための大規模な教室環境での実験は行われませんでした。さらに、そのアプローチでは学生の学力的・感情的状態は考慮されていません。

上記の研究はいずれも、大規模なオフライン教室環境での表情を通じて学生の学業上の感情状態を分析しようとしたものではなく、リアルタイムで学生の取り組みを監視するための AEMS を開発しました。

3) オフライン教室への生徒の参加の監視に関連する作業の概要

#3. 研究の意義と技術的背景

1)AEMS

教育分野で AEMS を導入すると、次のような幅広い応用が可能になります。

  • 遠隔学習環境では、人間の教師は生徒の参加レベル (低、中、高) に関するフィードバックをリアルタイムで受け取ることができます (Whitehill et al.、2014)
  • 教育ビデオに対する生徒の反応により、ビデオ コンテンツが自動的に識別および変更されるため、視聴者の興味が失われます (Whitehill et al.、2014)
  • 教育アナリストは、生徒の参加に影響を与える要因や変数を調査するために、膨大な量のデータにアクセスできます。これらのデータは、自己申告やアンケートの結果よりも高い時間分解能を持ちます (Whitehill et al., 2014)
  • 生徒の関与の分析は、生徒の学習プロセスを強化するための指導戦略を調整するための即時フィードバックとして使用できます (Ashwin & Guddeti、2019)
  • 指導戦略に関する毎日のフィードバックは、初心者教師にとって指導経験を迅速に向上させるのに有益です (Ashwin & Guddeti、2019)
  • スマートキャンパス、スマートユニバーシティの時代、キャンパスの学習環境は教室、ウェビナー、eラーニング環境など多様化しています。
  • 生徒の手動モニタリングは困難ですが、AEMS を使用すれば解決できます (Al-Nawaashi et al., 2017; Ashwin & Guddeti, 2019)

AEMS は、教育分野での使用に加えて、エンターテイメント (Wang, S. & Ji,Q.; ヘルスケア (Singh & Goyal, 2021)、ショッピング (Yolcu et al, 2020) など、他の多くの分野でも使用できます) AEMS はさまざまな分野で使用できるため、より良い予測を得るには、各分野で参加の次元に応じて異なるコンテキスト特徴のセットを再設計する必要があります。人々の視覚データを扱うのはデリケートです。これは感情に基づいています。人工知能と感情コンピューティング技術 このような自律システムの開発と使用は、システム設計、倫理的なデータの使用、透明性、プライバシーなど、責任ある行動を必要とする一連の新たな倫理問題をもたらします (Gretchen Greene 2020; Robin Murdoch 2020)。

2) アフェクティブ・コンピューティング

アフェクティブ コンピューティング (AC) は、人間の感情を感知、認識、処理できるシステムとデバイスを研究開発する分野です。これは、コンピューティング、心理学、認知科学を含む学際的な分野です。人工知能の助けを借りて、コンピューティング マシンを人間の感情を理解し、それに応じて反応できる感情インテリジェント マシンに変えることができます。AC は、教育、ヘルスケア、スマート ホーム、エンターテイメント、その他多くの分野で幅広い用途に使用されています。ACの研究者らの研究によると、人間のコミュニケーションは音声やテキストなどの口頭コミュニケーションだけでなく、顔の表情、視線、頭の視線、ジェスチャー、姿勢などの非言語コミュニケーションにも依存しているという(Poria et al, 2017) )。

研究 (Satik & Jonathan、2013) は、教室で話を聞いている生徒がより頻繁に使用する非言語コミュニケーション チャネルは表情であることを実証しました。教室の座席の配置や広さにも関わらず、これらの表情は非言語的パラメータによってあまり隠されませんでした。さらに、このパラメータの処理は、身体姿勢推定などの他の非言語パラメータを処理するよりも計算量が少なくなります。

4. 方法

図 3 に示すように、この方法のフレームワークには、オフラインとオンラインの 2 つのモジュールが含まれています。オフライン モジュールは CNN でトレーニングされた FER モデルに基づいており、オンライン モジュールはリアルタイムで実行され、オフライン モジュールでトレーニングされた CNN モデルを使用して生徒の関与を推定します。

1) プライバシーの保護

2) オフラインモジュール

オフライン モジュールは、入力として顔画像を受け入れ、出力として適切な感情状態ラベルを予測する CNN ベースの FER モデルを開発するために 1 回実行されます。オフライン モジュールの一部として、CNN アーキテクチャをトレーニングするためのデータセットも構築されます。

① データセットの構築; ② 学術的な感情状態の定義; ③ データ収集と参加者; ④ 顔データの注釈;

⑥ 提案するCNNモデル

3) オンラインモジュール

これには、ビデオ取得段階、前処理段階、生徒の感情分類段階、後処理段階、視覚化段階の 5 つの段階が含まれます。

  • まず、一連のビデオ フレームを取得し、フレーム カウンタを 0 に設定します。ビデオの各フレームが前処理段階まで処理されると、フレーム カウンタは 1 ずつ増加します。前処理段階では、位置合わせされた正面顔を返します。これらの顔画像からの感情状態は、オフライン モジュールでトレーニングされた FER モデルによって識別されます。
  • フレームカウンター値が事前定義されたしきい値と等しくなると、セクション4.2.4で説明されている後処理ステップを適用して、感情状態ラベル(ステップ1からステップ4まで)を識別することにより、処理されたビデオクリップに対してリアルタイムエンゲージメントグラフが描画されます。 。
  • 講義後、最大累積グループ参加レベル ラベルが、講義全体に対する学生の全体的な参加フィードバックとして返されます。

①ビデオキャプチャ

②前処理:

  • フレーム サンプリング: フレーム サンプリング ステップでは、1 秒あたり数個のビデオ フレームをサンプリングして、学生集団の参加レベルを推定します。(Whitehill et al 2014) によると、0.25 秒の時間間隔で 1 秒あたり 4 フレームのビデオを処理すると、1 秒あたり 30 フレームを処理した場合とほぼ同じ結果が得られます。したがって、このフレーム サンプリング ステップでは、0.25 秒の時間間隔で 1 秒あたり 4 つのビデオ フレームのみが処理されるため、計算オーバーヘッドが削減されます。
  • 顔の検出と抽出: 事前トレーニングされた顔検出モデルを使用して、各ビデオ フレームから最大数の顔を抽出します。事前トレーニングされた顔検出モデルとして、マルチタスク カスケード畳み込みニューラル ネットワーク (MTCNN) を使用します (Zhang, K., et al. 2016)。MTCNN モデルは、偽陽性結果が無視できるほど小さい顔パッチの検出において最先端の結果を達成します (顔以外のパッチが顔パッチとして検出される場合)。顔検出ステップは、顔パッチ座標のリストと顔ランドマーク座標のリストを返します。各顔パッチの座標には、検出された顔の右上隅の x 座標値と y 座標値、幅、高さの 4 つの値が含まれます。これら 4 つの値は、ビデオ フレームから顔画像パッチを抽出するために使用されます。顔のランドマーク座標テーブルには、各目の中央にある 2 つのランドマーク、鼻の先端に 1 つ、口角にある 2 つのランドマークの座標値が含まれています。
  • 頭部姿勢推定: 頭部姿勢検出ステップでは、検出された顔から、左に傾いた顔、右に傾いた顔、上下に傾いた顔など、正面以外の顔をすべて削除します。

    FER モデルはこれらの正面以外の顔に適切な感情状態ラベルを割り当てることができないため、方法の効率が低下します。頭部姿勢推定には、デジタル画像を使用して、カメラ姿勢に対する頭部の 3D 方向を計算することが含まれます。この目的を達成するために、(Mallick、2016) の研究で提案された方法を実装します。この研究では、6 つの 2D 顔ランドマーク (図 8 に示す 5 つのランドマークと顎の 6 番目のランドマーク) をそれぞれの 3D 位置ランドマーク (世界座標に関して計算) に関連付けることにより、姿勢に関連する 3 度、つまりヨー、ピッチとロール。6 番目の顔のランドマーク座標は、MTCNN モデルによって生成された鼻先と口角の顔のランドマーク座標を使用して明示的に計算されます。物体の垂直方向の回転をピッチといいます。水平運動における物体の回転はヨーと呼ばれます。物体の円運動(時計回りまたは反時計回り)の回転をローリングと呼びます。ヨー動作の度合いをしきい値に設定することにより、左右の傾いた顔が除去されます。同様に、ピッチシフトの度合いを閾値処理することにより、上下が除去されます。

  • 顔の位置調整とサイズ変更

正面顔のパッチは、顔の位置合わせステップでさらに調整されます。一般に、上の図に示すように、すべての前面が正確に揃っているという保証はありません。一部のファサードは右または左に傾斜している場合があります。顔の位置合わせは、変換、スケーリング、回転変換に基づいたデジタル画像の顔の標準位置合わせ前処理テクノロジーです。この目的を達成するために、(Rosebrock、2017) の研究で提案されたアプローチを実装します。このステップのもう 1 つの暗黙の利点は画像の強調であり、ピクセルの位置を変更することで画像のぼやけを軽減します。最後に、これらの位置合わせされたフロントのサイズが 48 × 48 (幅 × 高さ) ピクセルに変更され、トレーニングされた FER モデルへの入力として使用されます。

③生徒の心理状態の分類

低エンゲージメント (EL1): 退屈、眠気; 中程度のエンゲージメント (EL2): あくび、イライラ、混乱; 高エンゲージメント (EL3): 集中

④後処理

  • ビデオ フレームから抽出されたすべての予測された生徒の顔の感情ラベルをそれぞれのアキュムレータに蓄積します (アキュムレータは各感情状態ラベルのカウンタとして機能します)。
  • これらのアキュムレータは、それぞれの EL アキュムレータ、EL1 (低)、EL2 (中)、および EL3 (高) にマージされます。
  • フレームカウンターが事前定義されたしきい値と等しくなるまで、このプロセスを繰り返します。
  • フレーム カウンタが事前定義されたしきい値と等しくなると、入力ビデオ ストリームはビデオ セグメントに分割されます (最大 EL アキュムレータ ラベルがそのビデオ セグメントのグループ参加レベル (GEL) として返されます)。
  • 各ビデオ セグメントの GEL ラベルを、完全な講義参加フィードバック (FGEF) を使用する、GEL1(低)、GEL2(中)、GEL3(高) などのそれぞれの GEL アキュムレータに蓄積します。
  • この処理の後、処理されたビデオクリップの GEL がリアルタイム グラフ上にプロットされます。
  • 最後に、入力ビデオ ストリームが完了すると、最大の GEL アキュムレータ ラベルが講義全体の FGEF として返されます。

5. 実験と考察

1) 実験装置

実装と実験には、第 8 世代 Intel Core i5-8300H プロセッサ @2.30GHz、16gb RAM、および 4gb NVIDIA GeForce GTX 1050Ti グラフィックス カードで構成されるコンピューティング システムが使用されました。

この学科のスマート教室には200万画素(People Link Elite FHD-1080 20倍光学ズーム)ネットワークカメラが設置されており、教室の映像を録画しています。

2) CNN モデルのトレーニングと評価

3) 計算時間

4) 結果と考察

5) 制限事項

この作業は、学生の年齢、文化、階級背景に大きな異質性がない場合に限定されました。この場合、表情に大きな変化はないと仮定し、表情を認識するには単一のモデルで十分です。したがって、提案されたモデルの操作は、上記の状況ではある程度機能しますが、異なる年齢、文化、背景を持つ生徒に適用すると異なる可能性があります。ただし、学生の年齢、文化、背景に大きな異質性がある状況でシステムを導入する場合は、さまざまな母集団を考慮して複数の FER モデルをトレーニングし、これらのモデルの出力を統合して最終結果を取得することをお勧めします。現在の研究では、主に生徒のグループへの参加を表情を通じて評価しています。体の姿勢、頭の動き、視線などのさまざまな非言語的手がかりの組み合わせについては考慮していません。さらに、この研究は、教師自身の判断、訓練された観察者、および生徒の学習の成果による外部の検証ではなく、生徒の取り組み尺度の自己報告によって検証されました。

おすすめ

転載: blog.csdn.net/qq_44930244/article/details/130955034