電気技師カップ B の問題における 大学生の学習に対する人工知能の影響の評価
AI と呼ばれる人工知能は、1956 年に米国のダートマス大学で会議を開いたときに、マッカーシーやミンスキーなどの科学者によって初めて提案されました。
2016 年には、人工知能 AlphaGo が韓国の囲碁名人イ・セドルを 4 対 1 で破り、その後、ボストン ダイナミクスの人型ロボット Atlas も優れた知覚能力と制御能力を実証しました。2022年、人工知能の絵画「スペース・オペラ・ハウス」がコロラド・ステート・フェアのアート・コンペティションで最優秀賞を受賞した。2023年3月16日、Baiduは新しい人工知能製品「Wen Xin Yi Yan」を発売した。
人工知能開発の主要な戦略的チャンスをつかむために、国務院は2017年に「新世代人工知能発展計画」を発表し、技術的に強力な国は人工知能技術の力を最大限に活用する必要があると指摘した。私の国で人工知能の開発における先行者利益を展開して構築し、革新的な国内および世界の技術大国の構築を加速します。教育省は2018年に「教育情報化2.0行動計画」を発表し、知的教育の発展を重視した「知能主導の教育情報化」実現に向けた行動指針を提案した。
背景分析: この背景では、人工知能 (AI) の開発の歴史といくつかの重要な出来事、ならびに我が国における人工知能の開発見通しと応用方向に関して関連部門によって提案された戦略計画と政策指針を紹介します。役に立たない
人工知能の発展は、社会のあらゆるレベルにさまざまな程度の影響を与え、大学生の学習にも影響を与えます。大学生の学習に対する人工知能の影響をさまざまな側面から理解するために、アンケートを作成しました。詳細については付録 1 を、アンケートのフィードバック結果については付録 2 を参照してください。
背景分析: このトピックでは主に、大学生の学習に対する人工知能の影響をさまざまな側面から分析できます。必要なデータセットは添付ファイル 1 と 2 です。これら 2 つの添付ファイルは後で分析されます。
興味のある特定の側面に従って、付録 1 および付録 2 に示されているデータと組み合わせて、対応する数学モデルを確立し、大学生の学習に対する人工知能の影響を分析し、次の問題を解決してください。
1. 付属書 2 に示されたデータを分析および数値処理し、処理方法を指定する。
質問 1 の分析: 最初の質問では、付録 2 に示されているデータの分析と数値処理が必要です。
付録 2 を観察すると、非数値データが大量にあることがわかります。そのため、これらのデータの定量的な分析、つまり標記の数値処理が必要です。対処方法は次のとおりです。
1 ラベルエンコーディング
ラベル エンコーディングは、可能な値のセットを整数に変換することによって非数値データを量子化する方法です。たとえば、機械学習の分野では、複数のカテゴリを持つ変数の場合、各カテゴリに一意の整数値を割り当てることで、数値データに変換できます。
2 ワンホットエンコーディング ワンホット
ワンホット エンコーディングは、複数の可能な値をバイナリ配列に変換する方法です。ワンホット エンコーディングでは、各可能な値はバイナリ配列に対応し、その長さは可能な値の総数であり、1 つの要素のみが 1 で、残りは 0 です。たとえば、性別変数の場合、ワンホット エンコーディングを使用して、「男性」と「女性」をそれぞれ [1, 0] と [0, 1] に変換できます。
3 カテゴリ数
カテゴリカル カウントは、非数値データを数値データに変換する簡単な方法です。カテゴリカウントでは、特定の属性 (教育、職業など) に従ってデータを分類し、各カテゴリの数または頻度をカウントします。たとえば、調査アンケートでは、質問に対する回答を「はい」、「いいえ」、「わからない」のカテゴリに分類し、各カテゴリの数または頻度をカウントできます。
4 主成分分析
主成分分析は、多次元データを低次元表現に変換する方法です。主成分分析では、データの変動を最もよく説明する主成分を見つけることにより、生データの次元削減を実行します。これにより、数値以外のデータが数値データに変換されます。
次に、データ分析、つまり箱ひげ図を使用してデータ フィールドを削除し、それを視覚化できる EDA (探索的データ分析) があります。以下に 2 つの部分を紹介します。
箱ひげ図は、データの分布と外れ値を表示できる一般的なデータ視覚化ツールです。箱ひげ図では、ボックスはデータの四分位範囲を示し、外れ値はボックスの上下に散布点として表示されます。
箱ひげ図に従って異常データを除去する手順は次のとおりです。 (数値以外のデータ変換が多いため、ここで予測アルゴリズムを使用して、判断したい指標を予測し、実際の値との差を見ることもできます) )
l 箱ひげ図を描き、箱の上下の散布点に明らかに偏ったデータ ポイントがあるかどうかを観察します。ほとんどの場合、外れ値はボックスの上位 1.5 四分位範囲と下位 1.5 四分位範囲外にあるデータ ポイントとして定義されます。
l 外れ値の位置と数を特定し、データセットからそれらを削除するか修正します。外れ値を処理する方法には、平均または中央値での置き換え、線形補間、予測用のモデルの使用などが含まれます。
l 処理されたデータの箱ひげ図を再描画して、外れ値が適切に処理されていることを確認します。
一般的な EDA 視覚化方法:
l ヒストグラムと密度プロット: 数値変数の分布を表示します。
l 散布図: 2 つの連続変数間の関係を示します。
l 箱ひげ図: 数値変数の分布と外れ値を表示します。
l 棒グラフと円グラフ: カテゴリ変数の分布を表示します。
l 折れ線グラフ: 時間または順序に伴う傾向を示します。
l ヒートマップ: さまざまな変数間の相関関係を示します。
l 散布図マトリックスプロット: 複数の変数間の散布図マトリックスを表示します。
l 地理地図: 地理的位置データと空間分布情報を表示します。
2. データ分析結果に基づいて評価指標を選定し、優先順位、科学性、操作性などの合理性を検討し、評価指標体系を構築します。
問題点 2 の分析: 提案された評価アルゴリズムには、さまざまな指標間のリンクを確立するためのグレー総合評価法とファジィ総合評価法が含まれています。評価指標を選択するプロセスでは、指標に対して相関分析または次元削減を実行します。相関分析の一般的な方法は次のとおりです。
l ピアソン相関係数: 2 つの変数間の線形関係を測定するために使用され、値の範囲は -1 から 1 の間です。値が 1 または -1 に近いほど、相関は強くなります。
l スピアマン順位相関係数: 2 つの変数間の単調関係 (非線形だが同じ傾向) を測定するために使用されます。これは順位または順位データに基づいて計算されます。データは順位に変換され、その後、順位間の相関係数が計算されます。ランクを計算することができます。
l Kendall 順位相関係数: スピアマン順位相関係数と同様に、2 つの変数間の単調な関係を測定するために使用されますが、各変数のすべての可能なペアに基づいて調整の対数を計算します。
l 判別分析: 統計モデルに基づいて、入力変数と出力変数の間の関連度を測定して、新しい観測値の分類またはラベルを予測します。分類や予測などの教師あり学習タスクによく使用されます。
l 因子分析: 複数の変数間の基礎となる構造と因子を発見するために使用できる教師なし次元削減手法。共通の分散と要因を見つけることでデータの変動を説明し、単純化と解釈のために元の変数をより少ない要因に変換します。
データの次元削減手法には、主成分分析 (PCA)、線形判別分析 (LDA)、ローカル線形埋め込み (LLE)、t-SNE などが含まれます。これらの方法では、高次元データを低次元に圧縮し、元のデータの情報を可能な限り保持できます。その中でも、PCA と LDA は、最も一般的に使用される次元削減手法の 1 つです。PCA は、共分散行列で固有値分解を実行することによって次元削減を実現します。一方、LDA は、異なるカテゴリ間の距離ができるだけ大きくなるように、データを新しい低次元空間に射影する教師あり次元削減手法です。できるだけ小さいです。LLE と t-SNE は、非線形問題により適しています。
3. 数学的モデルを確立し、大学生の学習に対する人工知能の影響を評価し、明確で説得力のある結論を出します。
質問 3 ~ 4 およびその後のコード、論文などについては、記事の最後を参照してください。
4. アンケートのデータに基づいて、人工知能に関する理解、認識、判断、および将来の人工知能開発の見通しを組み合わせて、大学生の学習に対する人工知能の影響に関する分析レポートを作成します。ただし、プラスまたはマイナスの影響に限定されません。
付録 1. アンケート
付録 2. 調査データ
トピック選択の提案は次のとおりです。
2023 年 5 月 1 日モデリング数学コンテスト (5 月 1 日) トピック選択の提案_DS C Jun のブログ-CSDNブログ
アイデア、関連コード、説明ビデオ、リファレンス、その他の関連コンテンツについては、下のグループ名刺をクリックしてください。