大数据？这些你了解吗？

一.学习大数据的基础

首先，要知道的是90%的大数据框架都是用Java写的，所以说要掌握Java SE，EE(SSM);那么大数据是对数据的处理和分析，所以SQL语句是要熟练掌握的(MySQL SQL on Hadoop);紧接着，由于大数据的框架安装在Linux操作系统上的，所以要对Linux操作指令熟练掌握。

二.需要学什么

第一方面：大数据离线分析

一般处理T+1（所谓T+1就是处理的是每天 or 每周 or 每月 or每年）数据

(1).Hadoop 2.X:(common(为其它提供服务)、HDFS(分布式文件系统)、MapReduce(Map进行拆分，Reduce进行整合)、YARN（计算与管理分开）)

环境搭建：处理数据的思想

(2).Hive:大数据处理仓库

通过写SQL对数据进行操作，类似于MySQL数据库中的SQL

(3).HBase:基于HDFS的NOSQL(不仅仅是SQL)，面向列的存储。相较于MySQ来说，数据的存储十分庞大

协作框架：

sqoop(桥梁：HDFS <==> RDNMS)

flume:手机日志文件中的信息

调度框架：anzkaban,了解：crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架：

kylin、impala、ElasticSearch(ES)

第二方面：

大数据实时分析：

以spack框架为主

Scala：OOP(Object Oriented Programming面向对象编程)+FP(Functional Programming面向函数)

sparkCore：类比MapReduce

sparkSQL：类比nive

sparkStreaming:实时处理数据

kafka:消息队列

前沿框架扩展：flink

阿里巴巴：blink

第三方面：大数据机器学习（扩展）

spark MLlib:机器学习库（算法）

pyspark编程：Python 和 spark的结合

推荐系统

Python数据分析

Python机器学习

三.环境搭建（之前发的文章有详细过程）

1.虚拟化软件

虚拟出一台计算器(memory,CPU core,硬盘) Linux centOS 6.4 VMware 12.x

2.安装虚拟机过程

①.导入虚拟机

=》解压

=》英文目录下

=》导入VMware中【已移动】

=》超级管理员用户 eg:root/123456

②.修改WMware Vmnt8的适配器网段地址（eg:192.168.59.0）

③.虚拟机配置约束——>职业化

使用普通用户：eg:huadian/huadian

主机名：bigdata-hpsk01.huadian.com

④基本操作(root用户来操作)

创建普通用户：

#useradd huadian

#passwd huadian

修改主机名

#vi /etc/sysconfig/network

配置ip和主机名映射

配置ip

UI界面（ vi /etc/sysconfig/network-scripts/ifcfg-eth0 ）

主机名映射

vi /etc/hosts

192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01

测试：ping bigdata-hpsk01.huadian.com

注意：Windows也要改一下

C:\windows\system32\drivers\etc\hosts

追加192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01

⑤.远程连接

CRT、Xshell、notepad++

⑥.配置普通用户huadian具有sudo权限

visudo

⑦.关闭防火墙

当前关闭

sudo service iptables stop

检查是否设置成功

service iptables status

开机不启动

sudo chkconfig iptables off

检查设置是否成功

chkconfig iptables --list

关闭selinux

vi /etc/selinux/config

vi /etc/sysconfig/selinux

设置SWLINUX=disabled 该设置必须重启才能生效

⑧.关闭虚拟机

init 0 / halt

虚拟机快照

⑨.OK,开机工作

四.大数据框架安装功能来划分

海量存储数据：

HDFS、Hive（本质存储数据还是HDFS）、HBASE、ES

海量数据分析：

MapReduce、Spack、SQL

最原始的Hadoop框架

数据存储:HDFS (Hadoop Distributed File System) Hadoop 分布式的文件系统

数据分析：MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码，但是他发布了这三个产品对的详细设计论文，

奠定了风靡全球的大数据算法的基础！

Google FS HDFS

MapReduce MapReduce

BigTable Hbase

将任务分解然后在很多平台处理能力较弱的计算节点中间同时处理，然后将结果合并从而完成大数据的处理

Google：Android，搜索，大数据框架，人工智能框架

pagerank

五、Hadoop介绍

大数据绝大多数框架，都属于Apache顶级项目

http://apache.org/

hadoop官网：http：//hadoop.apache.org/

六、分布式

相对于【集中式】

需要多台机器，进行协助完成。

元数据：记录数据的数据

架构：

                      主节点Master 老大，管理者
        管理
        从节点Slave 从属，奴隶，被管理者
        干活

Hadoop也是分布式架构
HDFS:
主节点：NameNode
决定着数据存储到那个DataNode上
从节点：DataNode
存储数据

MapReduce:
分而治之思想
将海量的数据划分为多个部分，每部分数据进行单独的处理，最后将所有结果进行合并
map task
单独处理每一部分的数据、

reduce task
合并map task的输出

YARN:
分布式集群资源管理框架，管理者集群的资源（Memory,cpu core）
合理调度分配给各个程序（MapReduce）使用
主节点：resourceManager
掌管集群中的资源
从节点：nodeManager
管理每台集群资源

总结：Hadoop的安装部署
都属于java进程，就是启动了JVM进程，运行服务。
HDFS：存储数据，提供分析的数据
NameNode/DataNode
YARN:提供程序运行的资源
ResourceManager/NodeManager
七、安装前的准备
伪分布式安装部署
在一台机器上安装部署HDFS和YARN服务。
相关服务都属于java进程，就是启动JVM服务，
这些进程运行在一台机器上。
规划Linux系统的目录结构
以系统/opt目录为主安装软件包。
/opt
/datas 测试数据
/softwares 软件包，上传的软件包
/mudules 软件安装目录
/tools 开发的IDE及工具
将上述目录所属者和所属组改成huadian
chown huadian:huadian /datas /softwares /mudules /tools

安装jdk
卸载系统自带的openjdk
查看：sudo rpm -qa |grep java
卸载：
sudo rpm -e --nodeps
java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 \
tzdata-java-2012j-1.el6.noarch \
java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

linux系统自带上传和下载软件
sudo yum install -y lrzsz
rz:上传文件，上传到当前执行rz命令的路径
sz：下载文件

安装jdk
注意：Linux安装jdk类似于Windows安装一个绿色版本软件直接解压，然后配置环境变量即可
（1）使用rz将jdk上传到/opt/softwares
（2）解压：
tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/
（3）配置环境变量
sudo vi /etc/profile
#JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.8.0_91
export PATH=${PATH}:${JAVA_HOME}/bin
使其生效：
source /etc/profile
验证：
java -version

----完了之后千万不要忘记快照哦-----

大数据？这些你了解吗？

猜你喜欢