【慕课网实战】Spark Streaming实时流处理项目实战笔记

Mware Fusion
Mac上搭建：为了给大家演示如何使用我们的OOTB环境
Hadoop环境：虚拟机，我是远程登录
Mac
那么就不需要使用我们的OOTB环境
VMware Fusion+OOTB

Window：VMware

hadoop/hadoop
root用户的密码是什么？
修改配置文件，是需要root权限的，怎么办？
sudo command

只有一个地方需要修改：ip地址
/etc/hosts
192.168.199.128 hadoop000
192.168.199.128 localhost

铭文二级：

项目需求=>

1.今天到现在为止的流量访问量

2.今天到现在为止从搜索引擎引流过来的流量访问量

处理流程：产生->采集->清洗->分析->入库->可视化

学习前提基础：1.linux基础 2.java/python/scala其中一种语言 3.hadoop/spark基础

学习建议=>

1.笔记（如写博客）

2.官网（*为apache顶级项目）:

A.官网：*.apache.org

B.源码：github.com/apache/*

3.动手

环境介绍=>

CenOs6.4、CDH5.7、IDEA、Jdk1.8、Scala2.11.8、Spark2.2.0、flume1.6.0、kafka0.9.0.0、ZooKeeper-3.4.5、Hbase1.2.0

CDH5的环境网址：http://archive.cloudera.com/cdh5/cdh/5/ （或搜：cdh5 第一个网址）

OOTB环境使用=>

用VMware打开hadoop000.vmx文件（若为VMware Fusion环境：选择“已拷贝”、“是”）

用户：hadoop 密码：hadoop

1.ifconfig查询ip地址 2.sudo vi /etc/hosts修改成查到的ip地址

（远端登录指令：ssh [email protected]）//ip地址改成自己的

虚拟机核心文件夹：（/home/hadoop/） app、data、lib、software、source

若要进行Spark版本的升级（前提需要装好maven）=>

官网介绍：http://spark.apache.org/docs/latest/building-spark.html(官网主页：Documentation->Latest Release->More->Building Spark)

中文介绍：https://www.imooc.com/article/18419

1.jdk升级到1.8 2.scala版本若为2.10，勿忘执行：./dev/change-scala-version.sh 2.10

环境变量=>

配置在~/.bash_profile里面

export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9

export PATH=$MAVEN_HOME/bin:$PATH

铭文三级：

问题：虚拟机每次重启，ip地址会自动变化，如何固定？

方案1：setup--网络设置--不要选dhcp--手动设置ip,掩码---退出---service network restart--ifconfig查看
或者应用程序--网络--eth0--编辑--使用固定ip--手动输入设置--确定--激活--service network restart--ifconfg查看

方案2：http://blog.csdn.net/wang_zhenwei/article/details/48706651

排位赛总结：

linux vi 删除1行：dd

ssh hadoop@ip　　//注意是hadoop机器，不是用户名

铭文四级：

Spark源码编译

第一种方式：打包成tgz包（custom-spark改成2.6.0-cdh5.7.0）

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

老师参考：
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

第二种方式：mvn编译（如今官网-Phadoop是使用2.6.X，所以参数也可以不传递）

./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

mvn知识补充：-P传递pom.xml里的profile参数 -D传递dependency参数

用到shell脚本

cat streaming_project.conf jps -m

sz streaming_project.conf

kafka-console-consumer.sh --zookeeper hadoop000:2181 --topic streamingtopic

flume-ng agent --name exec-memory-kafka --conf $FLUME_HOME/conf --conf-file /home/hadoop/data/project/streaming_project2.conf -Dflume.root.logger=INFO,console

crontab -e

python generate_log.py

cd $HBASE_HOME

./start-hbase.sh

./stop-hbase.cmd

cd /app/zookeeper-3.4.5-cdh5.7.0/ ./zkServer.sh stop ./zkServer.sh start

cd $HADOOP_HOME ./stop-dfs.sh ./start-dfs.sh

spark-submit --master local[5] --jars $(echo /home/hadoop/app/hbase-1.2.0-cdh5.7.0/lib/*.jar | tr ' ' ',') --class com.imooc.spark.project.spark.ImoocStatStreamingApp --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 /home/hadoop/lib/sparktrain-1.0.jar hadoop000:2181 test streamingtopic 1

cat avro-memory-logger.conf

java -jar web-0.0.1-SNAPSHOT.jar

kill -9 500

【慕课网实战】Spark Streaming实时流处理项目实战笔记

猜你喜欢