「データマイニング」スクールオンライン 【第1章:概要】演習解答の参照と分析

「データマイニング」シリーズ記事目次

第 1 章 概要
第 2 章 データ
第 3 章 データの前処理
第 4 章 データ ウェアハウスと OLAP
第 5 章 回帰分析
第 6 章 よくあるパターン
第 7 章 分類
第 8 章 クラスタリング
第 9 章 外れ値の検出



第1章 概要

複数の選択肢の質問

  1. 次のデータ マイニング タスクは次のとおりです。 ( )
    A. 企業の顧客を性別に応じて分類する
    B. 企業の総売上高を計算する
    C. サイコロの出目を予測する
    D. 履歴記録を使用して企業の将来の株価を予測する
  2. 次の 4 つの方法のうち、一般的な分類方法ではないものはどれですか ( )
    A デシジョン ツリー
    B サポート ベクトル
    C K 平均法
    D 単純ベイズ分類
  3. 元のデータの統合、変換、次元削減、および数値削減のタスクはどのステップですか ( )
    A. 頻繁なパターン マイニング
    B. 分類と予測
    C. データの前処理
    D. データ ストリーム マイニング
  4. KDD は ( )
    A データ マイニングと知識の発見
    B ドメインの知識の発見
    C ドキュメントの知識の発見
    D 動的知識の発見
  5. 外れ値に関する以下の分析は間違っています ( )
    A. 一般に、外れ値はノイズとして扱われ、破棄されます
    B. 外れ値はノイズ データです
    C. 一部の特殊なアプリケーションでは、外れ値は特別な意味を持ちます
    D. クレジット カード 突然の出費現象消費が一般的ではない地域での多額の資金は、外れ値分析のカテゴリーに分類されます。
  6. 異なる次元のデータを組み合わせてデータ キューブを形成できるものは ( )
    A データベース
    B データ ソース
    C データ ウェアハウス
    D データベース システム
  7. 目的は、データ マイニング アルゴリズムのニーズにより適したデータの値の範囲を狭め、元のデータと同じ分析結果を取得することです () A データ クリーニング B データ統合 C データ
    変換
    D
    データ
    削減
  8. 以下のタスクのうち、ビジネス インテリジェンスにおけるデータ マイニング テクノロジーの応用は次のとおりです。 ( )
    A. 不正行為の検出
    B. スパムの識別
    C. インターネット検索エンジンに基づいて特定の Web ページを検索
    D. ターゲットを絞ったマーケティング
  9. 異常検出の用途としては、 ( )
    A. サイバー攻撃
    B. 特定の株式の将来価格の予測
    C. 企業の総売上高の計算
    D. 企業の顧客を性別に応じて分割する
  10. パターン認識に関する次の記述のうち、誤っているものはどれですか ( )
    A. パターン認識の本質は、さまざまなもののパターンを抽象化し、それに基づいて分類することです B.
    医療診断もパターン認識の研究内容の 1 つ
    C. 指紋ロック解除技術携帯電話用 パターン認識ではないアプリケーション
    D 自然言語理解にはパターン認識の問題も含まれます
  11. データ分析とデータマイニングが現在直面している困難な課題には、( ) は含まれません。
    A. データ型の多様化
    B. 高次元データ
    C. 外れ値データ
    D. 分析とマイニング結果の可視化

正しいか間違っているか

  1. 教師なし学習では、ラベルのないデータセットで学習できます。
  2. クラスタリングとは、いくつかのオブジェクトを複数のグループまたはクラスターに分割し、同じグループ内のオブジェクトは比較的類似し、異なるグループ内のオブジェクトは大きく異なるようにすることです。
  3. トランザクション データベース内の各レコードはトランザクションを表します。
  4. データ ウェアハウスとデータベースは実際には同じであり、どちらもデータまたは情報のストレージ システムです。
  5. 外れ値は一般的なレベルから逸脱しているため、検討や検討の必要はありません。
  6. データ マイニングの主なタスクは、データの説明やデータの予測などのタスクをより適切に完了できるように、データから潜在的なルールを発見することです。
  7. 通常、データ ウェアハウスにはオンライン トランザクション データが保存され、データベースには通常、履歴データが保存されます。
  8. データベースは、歴史的な変化を反映し、経営上の意思決定をサポートするために使用される、主題指向で統合された比較的安定したデータのコレクションです。
  9. 一般的な機械学習手法には、教師あり学習、教師なし学習、半教師あり学習などがあります。
  10. 頻繁なパターンとは、データセット内に頻繁に現れるパターンを指します。
  11. 外れ値とは、全体的または局所的に一般的なレベルから逸脱する観測オブジェクトを指します。
  12. 回帰はモデルを構築して離散ラベルを予測することですが、分類は連続値モデルを構築して新しいデータの特定の数値属性を推測することです。
  13. データベースはサブジェクト指向であり、データ ウェアハウスはトランザクション指向です。
  14. 差別化とは、データ オブジェクトのターゲット クラスの一般的な特性と 1 つ以上の比較クラス オブジェクトの一般的な特性を比較することです。
  15. クラスタリング プロセスへの入力オブジェクトには、ターゲット情報が関連付けられています。
  16. データ マイニングの目的は、データを収集することではなく、既存のデータのパターンを発見することです。
  17. データ分析とは、適切な統計分析手法を使用して、収集されたデータを分析、要約、要約し、データを適切に記述し、有用な情報を抽出するプロセスを指します。
  18. データ分析の定義: データ分析はデータの分析です。専門的に言えば、データ分析とは、収集したデータを分析目的に応じて適切な統計分析手法やツールを用いて加工・分析し、価値のある情報を抽出し、データを活用することを指します。
  19. 大規模なデータから興味深い知識やパターンを抽出またはマイニングするプロセスまたは方法は、データ マイニングと呼ばれます。
  20. データマイニングは主に、分類、クラスタリング、関連付け、予測という 4 種類の問題を解決することに重点を置いています。
  21. データ分析とは、適切な統計分析手法を使用して、収集されたデータを分析、要約、要約することを指します。
  22. データ ウェアハウス システムの主な用途は、オンライン分析処理です。

解析する

判定 12
回帰はモデルを構築して離散ラベルを予測することですが、分類は連続値モデルを構築して新しいデータの特定の数値属性を推測することです。

分類はモデルを構築することによって離散ラベルを予測することであり、回帰は連続値モデルを構築することによって新しいデータの特定の数値属性を推測することです。


考え方のまとめ

データ分析とデータマイニングについて - 理解

  • データ分析とデータマイニングについて簡単に説明してください。
  • 実生活や科学研究活動におけるデータ分析とデータマイニングの他の応用例を挙げてください。

データマイニングとデータ分析には2つの大きな違いがあると私は考えています。1つ目は、データマイニングで処理されるデータがデータ分析で処理されるデータよりも大きいことです。2つ目は、データマイニングには、データを処理する前に明確な目的や需要がないことです。そしてデータ分析が存在します。まとめると、データ分析とデータマイニングの本質は同じです. どちらもデータから貴重な情報を発見し、人間がより良い意思決定を行えるようにするものです. どちらも現在のビッグデータ時代において重要なツールであり、両方が必要であることに注目してください。

実生活では、データ分析により、リスクをより適切に回避するための多くのルールがもたらされます。科学研究においては、データ分析とデータマイニングが科学研究の成果を得る唯一の手段です。図に示すように、私の研究方向であるブロックチェーンでは、多くのデータ分析とデータマイニング手法を正式に適用して、ブロックチェーンの現在の傾向に関する情報統計を実施します。

ここに画像の説明を挿入します

データ分析とデータマイニング - テクノロジーについて

  • あなた自身の科学研究の経験と組み合わせて、データマイニングとデータ分析で一般的に使用されているテクノロジーについての理解について話してください。
  • データマイニングにおける困難な問題は何ですか? これについてどう思いますか?

私の科学研究の方向性はブロックチェーンであり、ブロックチェーン、データマイニング、データ分析の組み合わせは重要な社会的および経済的価値を持ち、ブロックチェーン科学研究の重要な分野でもあります。BlockSci ブロックチェーン データ分析フレームワークを例として、図は、BlockSci ブロックチェーン オブジェクトの [] 演算子を使用して、ビットコイン 465100# ブロック内の各トランザクションの処理レートを抽出し、関連する分析を実行する方法を示しています。分類、評価、予測、説明、視覚化など。これらのテクノロジーの分析を通じて、このブロック内のほとんどのトランザクションの処理速度は 500SAT/BYTE 以内に設定されていることがわかります。
ここに画像の説明を挿入します

データマイニングにおける現在の課題はプライバシー保護だと思います。たとえば、クレジットカードとユーザーの関係を研究する場合、子宮頸がん(危険因子)や年齢、子宮頸がんの数などを研究する場合、データには必ずユーザーの個人情報が含まれます。妊娠 交際中やパートナーの数など、社外に公開すると不都合な個人情報も出てきます。データマイニングのプロセスでは、ユーザーの個人的なプライバシーの問題を明らかにしたり、データの感度を下げたりすることなくデータマイニングを研究することが重要な側面になります。

注:回答は参考であり、01にまとめた個人的な考えです。

おすすめ

転載: blog.csdn.net/Eechoecho/article/details/123184963
おすすめ