ビッグデータロードマップを学習し、ビッグデータは何を学ぶ必要があります

 

ビッグデータとは何か、ビッグデータ時代を学ぶ必要がビッグデータ学習ロードマップ、(全体のネットワークは最も詳細]

 

ビッグデータ開発ラーニングパス:

第一段階:Hadoopのエコ建築技術

1、基本的な言語

ジャワ:その上でより多くの理解と実践は、Java仮想マシンのメモリ管理の深い理解を必要とせず、マルチスレッド、スレッドプール、デザインパターン、並列化。

Linuxの場合:インストール、基本的なコマンド、ネットワーク構成は、Vimエディタ、プロセスマネージャ、シェルスクリプト、仮想マシン、およびメニューに精通しそう。

基礎基本的な構文、データ構造、機能、条件判断、循環:Pythonの。

2、環境を準備

ここでは、Windowsは、メイン2から、完全分散型コンピュータを構築することです。

VMware仮想マシン、Linuxシステム(Centos6.5)、Hadoopのインストールパッケージ、良い準備ここで完全分散型Hadoopクラスタ環境。

3、MapReduceの

オフラインのMapReduceフレームワークを計算分散、Hadoopのコアプログラミングモデルです。

4、HDFS1.0 / 2.0

HDFSは、大規模なデータセット上のアプリケーションのための高スループットのデータアクセスを提供します。

図5に示すように、糸(Hadoop2.0)

糸は、リソース管理プラットフォームであるタスクにリソースを割り当てるための責任があります。

6、ハイブ

ハイブは、すべてのデータは、HDFS上に格納され、データウェアハウスです。使用ハイブは、主にHQLを書きます。

7、スパーク

スパークは、高速汎用コンピューティングエンジンのために設計された処理大規模なデータのために設計されています。

8、SparkStreaming

リアルタイム処理フレームワークをストリーミングスパークは、データをバッチにバッチで処理されます。

9、SparkHive

ハイブ計算エンジンとしてスパークは、スパークタスクとして提出ハイブクエリはスパーククラスタで計算されるように、あなたはハイブクエリのパフォーマンスを向上させることができます。

10、嵐

嵐が、嵐が処理される各新規のリアルタイムデータであり、プロセスが1である、リアルタイムコンピューティングフレームワークであるデータ処理の適時性を確保することができます。

11、飼育係

飼育係は、多くの大規模データフレーム、クラスタマネージャの基本です。

12、HBaseの

HBaseのNOSQLは、データベースであり、列指向、スケーラブルな分散型データベース信頼性が高いです。

13、カフカ

カフカは、中間バッファ層として、ミドルウェアメッセージです。

14、水路

Flume常见的就是采集应用产生的日志文件中的数据,一般有两个流程。

一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。

另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。

第二阶段:数据挖掘算法

1、中文分词

开源分词库的离线和在线应用

2、自然语言处理

文本相关性算法

3、推荐算法

基于CB、CF,归一法,Mahout应用。

4、分类算法

NB、SVM

5、回归算法

LR、DecisionTree

6、聚类算法

层次聚类、Kmeans

7、神经网络与深度学习

NN、Tensorflow

以上就是学习Hadoop开发的一个详细路线

学习大数据开发需要掌握哪些技术呢?

(1)Java语言基础

Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类

(2)HTML、CSS与Java

PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用

(3)JavaWeb和数据库

数据库、JavaWeb开发核心、JavaWeb开发内幕

Linux&Hadoop生态体系

Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架分布式计算框架和Spark&Strom生态体系(1)分布式计算框架

Pythonプログラミング言語、Scalaのプログラミング言語、スパークビッグデータ処理、火花ストリーミングビッグデータ処理、スパーク-MLIBの機械学習、火花GraphXマップ計算、本物の1:スパーク推薦システム(会社実際のプロジェクトのライン)ベースの戦闘2 :シーナは(www.sina.com.cn)あなたがビッグデータの開発に興味がある場合は、システムが望むビッグデータを学習する Junyangケリを学ぶために、あなたがビッグデータ交換技術に参加することができます:522 189 307、追加を歓迎し、コースを理解します

(2)嵐システム技術のアーキテクチャ

嵐の原理と基盤、メッセージキューカフカ、Redisのツール、こんにちは飼育係、ビッグデータプロジェクトの戦闘データ収集、データ処理、データ分析、データ・プレゼンテーション、データアプリケーション

ビッグデータ分析-AI(人工知能)データ

作業環境データベース分析、データの可視化、Pythonの機械学習を分析&準備

屋外の機器識別分析:2、およびニューラルネットワーク画像認識、自然言語処理&ソーシャルネットワーク処理、機械学習のPython実際のプロジェクト

公開された138元の記事 ウォンの賞賛0 ビュー7747

おすすめ

転載: blog.csdn.net/mnbvxiaoxin/article/details/104261344