第1节 网站点击流项目(上):5、6、7、数据预处理

五、 模块开发----数据预处理

1. 主要目的

过滤“不合规”数据,清洗无意义的数据

格式转换和规整

根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据。

 

2. 实现方式

开发一个mr程序WeblogPreProcess(内容太长,见github代码)

1. 点击流模型数据梳理

由于大量的指标统计从点击流模型中更容易得出,所以在预处理阶段,可以使用mr程序来生成点击流模型的数据。

1.1. 点击流模型pageviews表

Pageviews表模型数据生成, 详细见:ClickStreamPageView.java

此时程序的输入数据源就是上一步骤我们预处理完的数据。经过此不处理完成之后的数据格式为:

 

1.2. 点击流模型visit信息表

注:“一次访问”=“N次连续请求”

直接从原始数据中用hql语法得出每个人的“次”访问信息比较困难,可先用mapreduce程序分析原始数据得出“次”信息数据,然后再用hql进行更多维度统计

用MR程序从pageviews数据中,梳理出每一次visit的起止时间、页面信息

详细代码见工程:ClickStreamVisit.java

 

 

 

猜你喜欢

转载自www.cnblogs.com/mediocreWorld/p/11104355.html