Hadoop学习笔记 (四)

其他 2018-07-13 07:38:59 阅读次数: 0

四、实战应用

1. 【基于HDFS云盘存储系统】架构设计及秒速上传功能分析

① 网盘的增删改查即文件大小和日期都可通过hdfs dfs实现

② 相同的文件只保存一份。给用户显示的只是图标、链接。

③ 极速秒传

系统为每个文件生成一个hash码，把这个值上传到系统，系统在库里匹配有没有和这个值相对应的文件，有的话，就建立连接，实际上并没有上传。

④ 文件的相关信息存到HBase中

2. Hadoop 三大发行版本

CDH（Cloudera's Distribution, including Apache Hadoop）

HDP（Hortonworks Data Platform）

3. 项目实战之一【北风用户行为日志】项目数据文件的分析

北风网一天的日志量：10G

一般电商的日志量：30G – 50G

Nginx服务器：

举例：

"27.38.5.159" "-""31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27HTTP/1.1" "303" "440" -"http://www.ibeifeng.com/user.php?act=mycourse" "Mozilla/5.0(Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63Safari/537.36" "-" "learn.ibeifeng.com"

数据清洗：

日志数据往往会出现不合格的情况，如果不清洗，应用程序最常见的会出现空指针异常。所以需要数据清洗（最常用的方式--------MapReduce）。

4．项目实战之二业务需求之IP地址分析、访问时间、请求地址等分析及搜索推荐功能分析

① IP地址分析

(一般根据前两段就可以确定)

案例：

北风给百度钱做推广，比如说当北京或上海的ip搜索hadoop时，让百度显示第一个链接是北风网。

② 访问时间分析

(每天的访问的时间是最重要；其次是日期，看是否是节假日)

北风销售人数：40-50人

③ 请求地址分析

(可以分析出用户关注度较高的课程，进行精品研发录像发放。)

案例：

实时统计访问量最多的关键字。

④ 转入链接分析

北风网是8台机器在做以上的所有分析，24G内存，5T磁盘，8核的CPU。

5. 项目实战之四日志文件数据存储、收集、预处理和分析

① 数据存储

② 数据收集

* 定时收集：写程序，每天定时将文件上传到HDFS上(put)

* 实时收集：flume

* shell脚本

③ 数据预处理和分析

* 预处理

* MapReduce

* Hive

* 处理

*MapReduce

④ 对结果集进行处理

* 处理成数据格式

* json

* 导入到关系型数据库中（RDBMS）

⑤ 展示数据

* 报表工具，进行展示

DAAS：数据即服务（数据做为一种服务是通过传递有用的信息以帮助他人的活动来实现的）

五、附录：

文件位置规范：

/opt

modules 安装位置

software 软件下载位置

datas 数据文件位置

猜你喜欢

转载自blog.csdn.net/qq_24326765/article/details/80978628

Hadoop学习笔记 (四)

Hadoop学习笔记（四）

hadoop学习笔记（四）：HDFS

HADOOP学习笔记（四）：HBase

hadoop学习笔记（四）：hadoop文件结构

大数据Hadoop学习笔记（四）

《Hadoop权威指南》学习笔记（四）

walter的hadoop学习笔记四配置hadoop的eclipse开发环境

大数据学习笔记之Hadoop（四）：Hadoop-HA

hadoop学习笔记<四>----map-reduce工作原理

hadoop学习笔记（四）：java api 操作hdfs

Hadoop 学习笔记(四): 环境搭建(安装Linux 超详细)

Hadoop学习四：Hadoop-Hdfs NameNode

Hadoop学习教程(四) ---- Hadoop集群

Hadoop学习教程（MapReduce）（四）

Hadoop(四)

Hadoop学习笔记之四：eclipse 安装插件构建开发环境

Hadoop学习笔记之四:运行MapReduce作业做集成测试

《Hadoop权威指南（第四版英文版）》—— HDFS学习笔记

Hadoop入门学习笔记——四、MapReduce的框架配置和YARN的部署

django学习笔记（四）

spring学习笔记四

mvc学习笔记四

Unix学习笔记（四）

Glib学习笔记（四）

MFC学习笔记（四）

MySql学习笔记（四）

volley学习笔记四

oracle学习笔记四

python学习笔记（四）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)