クラウド コンピューティングとビッグ データ 第 7 章 ビッグ データの概要 練習用の質問と回答

7 章 ビッグデータの概要演習

7.1多肢選択問題

1. 次の記述のうち間違っているものはどれですか (B)。

A. データとは、客観的な事象を記録し、識別可能な記号を指します。    

B. 情報はデータの形式および伝達手段である

C. データは送信過程でのみ情報と呼ぶことができます。

D. 情報の適時性は、情報の使用と伝達にとって非常に重要です。

2. データ表現の観点から見ると、ビッグデータの主な典型的な特徴は (A) です。

              ①大量 ②種類豊富 ③早い ④お得

A. ①②③④ B. ②③④ C. ①③④ D. ①②④

3. 次の (B) は、ビッグ データ ライフ サイクルの主要な構成要素ではありません。

A. データ取得 B. データ圧縮 C. データ処理 D. 結果の視覚化

4、現在、ビッグデータプラットフォームには主にビッグデータ取得プラットフォーム、ビッグデータバッチ処理プラットフォーム、ストリームデータ処理プラットフォーム、メモリコンピューティングプラットフォーム、ディープラーニングプラットフォームなどが含まれており、以下の(C)はストリームデータ処理プラットフォームに属します  。

A. Hadoop B. Pytorch C. ストーム D. TensorFlow

5. Nutch は、(D) 言語で書かれた拡張性の高い検索エンジンです。

A. Pytorch B. C C. BASIC D. Java

7.2 空白を埋める

1. データ(ビジュアライゼーション)とは、データや分析結果をグラフィカルに直感的かつ分かりやすく表示する手法を指します。

2. (深層学習) データの分散された特徴表現を発見するために、分析と学習のためのマルチレベルのディープ ニューラル ネットワークを確立し、低レベルの特徴を組み合わせてより抽象的な高レベル表現の属性カテゴリまたは特徴を形成することによって。

3. Storm プラットフォームでは、(トポロジー/トポロジー) は、データ フローを通じて相互に関連する一連のスパウトとボルトで構成される有向非巡回グラフです。

4. TensorFlow は 2 つの部分 (tensor/Tensor) と (data flow/Flow) で構成されます。

5. Spark ジョブの実行は通常、(マスター/スレーブ) アーキテクチャを採用します。

7.3 記述式の質問

1. Nutch と Hadoop の関係について簡単に説明してください。

答え:

Nutch は、Hadoop 分散プラットフォーム下の複数の物理ホストに基づく並列データ収集の効果的なサポートを提供します。Hadoop 分散プラットフォームでは、Nutch は Hadoop 分散ファイル システムを使用して、短時間で大量のデータを収集できる Hadoop の MapReduce コンピューティング モデルを通じてページ内のトピックに関連するデータを収集します。Nutch と Hadoop の関係を次の図に示します。

2. 関連データを分析することは、企業がコストを削減し、効率を向上させ、新製品を開発し、より多くの情報に基づいたビジネス上の意思決定を行うのに役立ちます。企業は一般的にビッグデータ分析を通じてどのような目標を達成できますか?

答え:

(1) 故障、問題、欠陥の根本原因をタイムリーに分析し、コストを削減します。

(2) 渋滞を回避するために、数千台の高速車両のリアルタイムの交通ルートを計画します。

(3) 利益の最大化を目指して、在庫、価格を分析し、在庫を整理します。

(4) 顧客の購買習慣に応じて、顧客が興味を持ちそうな優待情報をプッシュします。

(5) 多数の顧客の中からゴールデンカスタマーを迅速に特定します。

(6) トラフィック分析やデータマイニングにより不正行為を回避します。

3. コンテンツの正確性を確保するために、Wikipedia は技術や運用ルールに関してどのような仕様を策定していますか?

答え:

(1) バージョン管理。各エントリの最新バージョンを保持します。参加者がエントリ全体を削除した場合でも、管理者はレコードからエントリを簡単に復元できます。

(2) エントリはロックされます。ロック テクノロジは、一部のメイン エントリのコンテンツをロックするために使用され、他の人がこれらのエントリを編集できないようにします。

(3) 備考を更新します。エントリーを更新する際に、説明欄にメモを記入することで、管理者がエントリー更新の操作内容を把握できるようになります。

(4) IP の禁止。悪意のあるユーザーがシステムやコンテンツに損害を与えるのを防ぐために、ウィキペディアは IP を識別して無効にする方法を使用して、悪意のあるユーザーによるその後の損害行為を防ぎます。

(5) サンドボックステスト。Wikipedia のすべてのエントリにはサンドボックス テスト ページがあり、初めて参加する人は、操作を間違えてもダメージを受けることなく、サンドボックス ページにアクセスしてシステムの機能に慣れることができます。

7.4 質問に答える

1. 製造業は、生産プロセスを改善するための意思決定の基礎として、データ分析テクノロジー、ツール、またはプラットフォームを使用して、大量の複雑な生の生産データから新しいパターンや知識をインテリジェントに発見する必要があります。製造指向のデータ処理プラットフォーム アーキテクチャにはどのレベルが含まれますか?

答え:

  1. 物理リソース層。物理リソース層には主に、データの保存と拡張を効果的にサポートできる基礎となる物理デバイスが含まれます。
  2. 論理リソース層。論理リソース層には、ストレージ リソースとコンピューティング リソースが含まれます。ストレージ リソースは、従来のデータベース、ローカル ファイル システム、分散ファイル システムなどの物理デバイスに基づいています。コンピューティング リソースは論理コンピューティング ユニットです。データ処理プラットフォームのコンピューティング能力はコンピューティング ユニットの数に依存します。コンピューティング ユニットの数を拡張および構成することで、上位層のデータ マイニング タスクを効果的にサポートできます。
  3. データ分析タスク管理。この層はデータ処理プラットフォームの中核であり、分析機能とバックグラウンド クラスターを効果的に接続できます。合理的なデータ分析プラットフォームの設計には、主に簡単なアルゴリズムの拡張、タスク フローとタスク間の依存関係の構成のサポート、タスクのスケジューリング、コンピューティング リソースとストレージ リソースの構成を含むタスク管理機能が必要です。データ分析プラットフォームは、データ分析フレームワークを通じてデータ分析タスク管理を効果的にサポートします。
  4. データ分析層。データ分析層は、特定の分析タスクのためのユーザー実行インターフェイスを提供し、データ分析タスクには主にデータ キューブ、比較分析、時間次元分析、データ操作、結果表示、分析レポートが含まれます。

おすすめ

転載: blog.csdn.net/m0_63394128/article/details/126567994