大数据项目开发进度(实时更新)

前言

如果你从本文中学习到丝毫知识,那么请您点点关注、点赞、评论和收藏
大家好,我是爱做梦的鱼,我是东北大学大数据实验班大三的小菜鸡,非常渴望优秀,羡慕优秀的人。从5月25号我们开始了为期两个月的实习,我们需要做一个大型大数据项目,一个项目由三个学生+一个企业的项目经理完成。请大家持续关注我的专栏,我会每天更新。
专栏:大数据案例实战——大三春招大数据开发
专栏:Spark官方文档解读【Spark2.4.5中英双语】
博客地址:子浩的博客https://blog.csdn.net/weixin_43124279

欢迎大家关注微信公众号【程序猿干货铺
一群热爱技术并且向往优秀的程序猿同学,不喜欢水文,不喜欢贩卖焦虑,只喜欢谈技术,分享的都是技术干货。Talk is cheap. Show me the code
在这里插入图片描述

项目概述

我们采用迭代式开发的软件开发过程

项目进度

第一周0525-0529:

  1. 确定项目题目和项目数据来源
    题目:数据分析运营系统
    数据来源:易头条的部分埋点日志文件+(如果我们后续需要海量数据,我们就写个程序来生成模拟数据)
  2. 学会使用SVN
    TortoiseSVN使用教程【多图超详细】——大数据开发实习(一)

第二周0601-0605:

0601:分析需求1
系统前端展示参考:友盟
0602:编写版本一的软件需求规格说明文档(SRS)(张志浩)
《v1软件需求规格说明文档(SRS)——大数据开发实习(二)》
0603:进行系统架构设计(非细节设计阶段)、安装环境2
0604:继续安装环境2、编写版本一的架构设计文档(赵磊)
《v1架构设计文档——大数据开发实习(三)》
0605:设计系统前端界面
分配任务如下:
在这里插入图片描述
赵磊:概况、用户分析
王阔:存留分析、终端属性分析
张志浩:渠道分析、用户参与度分析

第三周0608-0612:

0608:继续设计系统界面原型
0609:继续设计系统界面原型
0610:继续设计系统界面原型并完成
【迭代式开发】v1前端界面展示+代码——大数据开发实习(四)
0611:确定前端请求数据格式,设计前端所需要的数据库
【ADS层表-V1】前端页面所需的数据库设计——大数据开发实战项目(五)
0612:

  1. 数据库访问技术选型,从 JAP、Mybatis、JDBC Templete 中选了 JDBC Templete
  2. 完成了项目架构的分层
  3. 对前后端进行了分包
  4. 部分模块的类与方法进行了粗略设计
    赵磊:概况(完成部分)、用户分析(未完成)
    王阔:存留分析(完成部分)、终端属性分析(未完成)
    张志浩:渠道分析(完成部分)、用户参与度分析(未完成)

Web设计技术选型、分层、分包以及类与方法设计——大数据开发实战项目(五)

第四周0615-0619:

0615:

  1. 继续完成剩下模块的类与方法的设计
    赵磊:概况(部分完成,完成部分细节问题有待讨论、实践)、用户分析(部分完成,完成部分细节问题有待讨论、实践)
    王阔:存留分析(完成,但细节问题有待讨论、实践)、终端属性分析(未完成,因为要写部分代码的demo)
    张志浩:渠道分析(完成,但细节问题有待讨论、实践)、用户参与度分析(完成,但细节问题有待讨论、实践)
  2. 王阔(但未完成终端属性分析模块的类与方法的设计):实现存留分析部分demo,验证可行性作为web部分代码标准

【迭代式开发v1】类与方法设计(二)——大数据开发实战项目(七)

0616:

  1. 张志浩、赵磊:实际去建Web前端页面所需的数据库(以前只是设计,并没有实际建表)
  2. 王阔:Web后端部分代码实现(注:未完成终端属性模块的类与方法设计:TerminalAttributes)

【迭代式开发v1】实际去建Web前端页面所需的数据库(以前只是设计)+Web后端部分代码实现——大数据开发实战项目(八)


  1. 《v1数据分析运营系统的需求分析》
    1.整体趋势:
    基础统计数值:包括7日平均新增用户、活跃用户等,一周内、一个月内的统计量总数,总用户数。
    指定时间区间内(默认30天内每日):
    新增用户、活跃用户、启动次数、累计用户
    折线图,明细数据列表
    Top版本环形图:新增用户、活跃用户、累计用户每个版本占比
    Top渠道环形图:新增用户、活跃用户、累计用户每个渠道占比
    2.用户分析:
    a.新增用户:
    指定时间段、指定渠道和版本,每日新增用户折线图、明细数据表格
    次日存留率折线图、明细
    b.活跃用户:
    指定时间段、指定渠道和版本下,
    活跃趋势、活跃构成、活跃粘度、分时活跃用户、周,月活跃度
    c.启动次数:
    指定时间段、指定渠道和版本下,每(小时、天、周、月)的启动次数
    d.版本分布:
    指定时间段、版本下, 每天新增用户、活跃用户、启动次数折线图
    今日、昨日截至今日版本累计用户(%),新增用户,活跃用户(%),启动次数
    3.留存分析:
    a.留存用户
    指定时间段、指定渠道和版本下,每一个时间段(天、周、月)新用户和活跃用户数在接下来一段时间(天、周、月)的留存数/留存率,以表格形式和折线形式呈现。
    b.用户新鲜度:
    报表展示每天活跃用户的成分构成,并提供用户成分分析控件做进一步的分析。某日的活跃用户来源于当天新增用户、1天前新增用户…30天前新增用户、30+天前新增用户。
    c.用户活跃度:
    报表展现每个天级时间点的当日活跃用户的活跃程度。
    4.渠道分析:
    a.渠道列表:
    指定时间段、指定版本,各渠道新增用户、活跃用户、启动次数
    5.用户参与度
    a.使用时长:
    指定某一天、指定渠道和版本下,单次使用时长分布柱形图,明细表格。
    该天每个活跃用户使用时长分布柱形图、明细表格。
    b.使用频率:
    指定日期,指定版本、渠道,当日、上周、上个月使用次数分布柱形图,明细表格。
    c.访问页面:
    指定时间段(一天、一周、一个月)、指定渠道和版本下,访问页面分布柱形图,明细表格。
    d.使用间隔:
    查看任意30天内用户相邻两次启动间隔的分布情况,并可以进行版本、渠道及分群的筛选。以柱形图、明细表格形式展示。
    6.终端属性:
    a.设备终端:
    指定时间段(一天、一周、一个月)、指定渠道和版本下 ,top10机型、分辨率、操作系统的新增用户/启动次数柱状图、明细表格。
    b.网络及运营商:
    指定时间段(一天、一周、一个月)、指定渠道和版本下 ,各种联网方式的新增用户/启动次数柱状图、明细表格。
    c. 地域:
    指定时间段(一天、一周、一个月)、指定渠道和版本下 ,各省市的新增用户/活跃用户/启动次数柱状图(top10省)、明细表格(省市)。 ↩︎

  2. 所需安装环境为:

    1. jdk1.8.0_151、
    2. mysql-5.7.28、
    3. hadoop-3.0.0、
    4. flume-1.9.0、
    5. azkaban-3.90.0
    6. zookeeper-3.6.1、
    7. hive-3.1.2、
    8. spark-3.0.0
    9. kafka-2.4.1、
    10. (hbase-2.2.5、solar-8.5.2这两个是atlas安装的前置)
    11. atlas-2.0.0、
    12. sqoop-1.99.7

    每个环境的作用:
    数据采集传输:

    • Flume:分布式日志数据汇聚
    • Kafka:实时采集(计算)的缓冲
    • Sqoop:离线批量抽取数据库

    数据存储:

    • Mysql
    • HDFS

    数据计算:

    • Spark

    数据可视化:

    • Echarts

    job任务调度:

    • Azkaban

    元数据管理:

    • Atlas
    ↩︎ ↩︎

猜你喜欢

转载自blog.csdn.net/weixin_43124279/article/details/106570952