64-天亮大数据系列教程之练手小项目-微博ETL实战项目

  • 目录

    • 一、项目背景与目标
    • 二、需求分析
    • 三、主要思路与考点
  • 详情

    • 一、项目背景与目标
      • 项目背景
        • 微博作为web2.0时代的代表性产物,成为很多数据类项目争相依赖的数据源,也批量产出了很多各式各样的数据采集工程师,他们经常以采集微博平台的各种数据为工作,并将数据持久化、结构化存储或交易给第三方需求者。但往往在数据交易时,数据是以各种各样的数据文件格式存储,如何将这些各式各样的数据文件快速通过ETL转化成我方需要的数据格式,成为数据仓库工程师常见的ETL任务之一。
      • 项目目标
        • 用时不超过一周,主要是通过查看之前教学资料和视频,百度搜索等方式搞定,加强实战应用开发能力和自学能力。
        • 最终达到对于常用的小模块开发,可以在1-5天内迅速解决战斗,并形成自身的类库积累。
        • 掌握数据仓库开发流程、核心代码开发,达到独立开发中小型数据仓库项目的能力。
      • 项目产出
        • 产出两张表,通过给定已存在的用户id值,可以通过hive sql方便查出该id对应的用户信息及其评论内容信息记录集。
        • 均通过hive cli来演示效果即可。
  • 二、需求分析

    • 数据源说明
      • 微博公开数据源有很多,在百度或谷歌上笔笔皆是。可以通过各种获取之。
      • 本次数据源是天亮教育团队在大数据项目过程中,逐渐收集和自行采集的一部分数据。
    • 数据源确定
    • 数据输入与输出
      • 输入(两个类别的文件集合)
        • 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集,两者之间是通过用户id关联的。
        • 通过一定的Java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。
      • 输出(两张表,一个用户表,一个评论内容表)
        • 将两个类别下各自对应的文件集,进行解析、结构化。
        • 通过load语法,将数据分别导入到两张表当中。
  • 三、主要思路与考点

    • 主要思路
      • 通过javase+maven解决数据解析、结构化到一个文本文本的目标。
      • 通过hive load语法将数据加载入数据仓库管理。
      • 注意数据仓库的研发思路和开发步骤拆解,做到功能实现、目录清晰易懂。
    • 主要考点
      • 数据仓库的目录结构和开发规范
      • JavaSe程序设计基础
      • 面向对象程序设计
      • maven项目构建和开发
      • xml数据解析
      • 正则表达式


天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
在这里插入图片描述

天亮教育大数据官方群318971238,
天亮教育web前端官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/88780059