离线数据分析之设计步骤

步骤:
(数据清洗的驱动:通过MapReduce来清洗数据,将数据标准化后落地到HDFS中的HBase表格中。数据来源(通过flume将数据整合到hdfs):hdfs,如:base_dir=/input/data-clean/nginx/yyyy/MM/dd。)

  1. 编写map(编写一个类集成mapper,注意:确定产生类型。)
    方法一:setUp(在一个mapTask中只执行一次,实在map方法执行之前执行的,一般用于初始化,加载相关依赖配置信息)
    方法二:map(核心的业务处理方法,每一条输入,都会调用一次map方法)
    方法三:cleanUp(在一个mapTask中只执行一次,是在所有map方法执行完毕之后执行的,主要用作资源的释放,综合输出)

  2. 编写reduce(编写一个类集成Reducer,注意:确定产生类型。)
    方法一:setup(在一个reduceTask中只执行一次,实在map方法执行之前执行的,一般用于初始化,加载相关依赖配置信息)
    方法二: reduce(核心的业务处理方法,每一条输入,都会调用一次reduce方法)
    方法三: cleanup(在一个reduceTask中只执行一次,是在所有map方法执行完毕之后执行的,主要用作资源的释放,综合输出)

  3. 使用hive来关联HBase。

  4. 将hive经过统计分析之后的结果,存储到mysql中,供前台可视化工程师使用。

    注意:在HBase设置行键是可以使用UUID作为行键,具体可以参考URL:UUID简单认识

猜你喜欢

转载自blog.csdn.net/Jerry_991/article/details/82792409
今日推荐