ビッグデータ分析のHadoopの+スパーク膨大な量を学習し、マシンが実用的な学習の一日を過ごす5H「プロパティ」

この記事のテーマは、Hadoopの+スパーク大規模なデータ解析と機械学習です。我々はすべて知っているように、しかし、大気の上昇をスパーク、ほとんどのHadoopビッグデータプラットフォームを使用することで、より高速のHadoopと互換性があり、企業は、Sparkの開発に参加し始めています。例えば、IBMはApacheのスパークコミュニティに参加、我々は百万データ科学者を育成していきます。グーグル(Googleの)とMicrosoftはまた、スパーク、サービス、クラウド開発とデータ解析と機械学習プラットフォームを構築する機能を適用しました。これらの大企業に参加するだけでなく、将来のより多くの企業が大規模なデータのHadoopの+スパークデータ分析を採用することを意味します。

しかし、現在、ビッグデータの市場には多くの書籍が、ほとんどは理論やアプリケーションレベル、ネットワーク上の情報の多くものの、だけでなく、非常に厄介を導入する傾向があります。この記事では、希望ビッグデータと機械学習の分野に読者をリードし、学習曲線ビッグデータ技術を減らすために、明快かつ命令、プラス手動作原理、サンプルプログラムを紹介します。もちろん、大規模なデータの全体のエコシステムは、学ぶためにあまりにも多くのものは非常に大きいです。私はあなたが基本的な考え方を持っていたら、この記事の研究を通して、読者が技術的および他のビッグデータに関する詳細な研究を継続するためには、このフィールドを入力するために、比較的簡単にすることができます願っています。ここに画像を挿入説明

のドキュメント

この文書では、理解しやすいです「ビッグデータと機械学習」など、ビッグデータと機械学習の基本的な概念について説明し、原則は導入やメモで始まる:分類、分析、トレーニング、モデリング、予測、機械学習(推奨エンジン)を、機械学習(進分類)、機械学習(多変量分類)、機械学習(回帰分析)とデータの可視化アプリケーション。手は操作手順と例の富をHadoopクラスタを構築する方法を、単一のWindowsシステム上で仮想ボックス仮想マシンを介して複数のLinux仮想マシンをインストールする方法ブックショー、リーダーがビッグデータ技術のしきい値を小さくするために学ぶことを説明し提供します、その後、スパーク開発環境を作成します。Shangjishijianプラットフォームを構築しました。この論文の紹介は、単一の物理コンピュータに限定されるものではありません。プロセスは、テキストを参照して説明した有資格の企業や学校を建設するために、あなたはとても近い実際の動作環境を学ぶビッグデータと機械に、複数の物理コンピュータ上でビルドに同じプラットフォームを練習することができます。

セクション説明します

第1章では、ビッグデータと機械学習:ビッグデータ、Hadoopの、HDFS、MapReduceの、スパーク 、 機械学習
手操作:第2章VirtualBoxの仮想マシンは、ソフトウェアをインストールします。あなたがWindowsシステム上で複数のLinux仮想マシンをインストールすることができますので、仮想ボックス仮想マシンをインストールして
手操作:第3章のUbuntu Linuxオペレーティングシステムのインストール。UbuntuのLinuxオペレーティングシステムのインストール
ここに画像を挿入説明
手操作:インストール第4章Hadoopの単一ノードのクラスタを。単一のマシンのHadoopシングルノードクラスタマウント
Shangjishijian操作:第5章Hadoopのマルチノードクラスタのインストールを。複数のマシンのHadoopマルチノードクラスタのインストール
手操作:第6章のHadoop HDFSコマンドを。HDFSコマンドを発揮し
ここに画像を挿入説明
はじめHadoopのMapReduceの原則:第7章HadoopのMapReduceの。WordCount.javaサンプル・プログラム。記事内の各単語の使用の実証周波数は、HadoopのMapReduceのコンピューティングに登場しました

インストールと第8章スパークの導入:手操作。スパークのインストールと異なる環境で実証火花シェルインタフェースの動作

第9章スパークRDD:手操作。スパーク最も基本的な機能は、RDD(弾力性のある分散型データセット、弾力性、分散データ・セット)の基本的な操作説明
ここに画像を挿入説明
ハンズオン操作:第10章スパーク統合開発環境。統合開発環境(IDE)をインストールします。WordCount.scalaサンプル・プログラム。計算SparkMapReduceを思わ記事内の各単語の使用のデモンストレーション頻度

スパークMLlib MovieLensデータセットコメンデーション・エンジン(リコメンデーション・エンジン)を確立するためにフィルムを使用する方法について説明します:エンジン|第11章の作成には、弓をお勧めします。Recommend.scalaサンプル・プログラム。映画推薦システムを構築し、データ、トレーニングモデル、推奨されるユーザーまたは映画を取得する方法を示します。AlsEvalution.scalaサンプル・プログラム。デバッグ推奨エンジンのパラメータに、パラメータの最適な組み合わせを見つける方法を示しここに画像を挿入説明
、第12章StumbleUponのデータセット:StumbleUponのデータセットは、バイナリ分類問題に属している、あなたはページが可能かを予測することができますが、一時的またはWebページの特性に基づいて存在長期

第13章バイナリ分類決定木:RunDecisionTreeBinary.scalaサンプル・プログラム。ページが一時的または長期的に存在させることができますかを予測するために、バイナリ分類決定木分析StumbleUponのデータセットを使用すると、パラメータの最適な組み合わせを見つけるために、予測精度を向上させる方法を示しています

第14章ロジスティック回帰バイナリ分類:RunLogisticRegressionWithSGDBinary.scalaサンプル・プログラム。ページが一時的または長期的に存在させることができますかを予測するために、バイナリ分類決定木分析StumbleUponのデータセットを使用すると、パラメータの最適な組み合わせを見つけるために、予測精度を向上させる方法を示しています

第15章SVM進分類:RunSVMWithSGDBinary.scalaサンプル・プログラム。ページは、予測精度の一時的または長期的が存在することができ、パラメータの最適な組み合わせを見つけるために、改善を予測するためにSVMバイナリ分類分析StumbleUponのデータ・セットを実演
ここに画像を挿入説明
第16章ナイーブベイズ2元カテゴリ:RunNaiveBayesBinary.scalaサンプル・プログラム。ナイーブベイズ(ナイーブベイズ)ページが一時的または長期的が存在することができ、パラメータの最適な組み合わせを見つけるために、予測精度を向上させるかを予測するためのバイナリ分類分析StumbleUponのデータセットのデモンストレーションを実施

第17章ディシジョン・ツリー多変量分類:RunDecisionTreeMulti.scalaサンプル・プログラム。どのように模範的な決定木分類分析Covtype多変量データセット(森林植生)、土地の条件によっては、その植物を予測することができ、予測精度を向上させるためのパラメータの最適な組み合わせを見つけるために

第18章ディシジョン・ツリー回帰分析:RunDecisionTreeRegression.scalaサンプルプログラム。デモンストレーションは、決定木、回帰分析、自転車共有データセットを紹介します。日(祝日および条件は、賃貸あたりの時間数を予測することができ、かつ予測精度向上のためのパラメータの最適な組み合わせを見つけるために
ここに画像を挿入説明
はApacheツェッペリンデータの可視化を使用して、第19章を:手が操作し、使用ツェッペリンML-100Kを装着しますデータ収集は、データ分析のSpark SQLの使用やデータの可視化を実証し
ここに画像を挿入説明
、ほとんどの人がそのビッグデータは、多くのマシン環境で学ぶことが必要だと思いかもしれませんが、実際には、仮想マシンを用いて、自分のコンピュータ演習にすることができHadoopクラスタを構築し、スパークは、開発環境を確立しました。この本は、実際の操作のMapReduceとHDFSのHadoopの基本的な概念と同様に、RDDとMapReduceのスパークの基本的な概念を紹介します。

実際の例の-MoiveLens(映画の推奨エンジン)、StumbleUponの(ページバイナリ分類)、CovType(森林植生動作)、自転車シェアリング(Ubikeクラスレンタル予測分析)の大規模なデータ解析。機械学習アルゴリズムの様々なプログラム・コードの詳細な例は、スパーク機械学習を導入するデータ、データ分析、モデリング、予測、漸進的なアプローチを取得する方法を示しています。

「Hadoopの+スパークビッグデータ」小扁は、皆の仕上げのために良いされています
ここに画像を挿入説明

公開された85元の記事 ウォン称賛7 ビュー20000 +

おすすめ

転載: blog.csdn.net/Ppikaqiu/article/details/104718822