数据仓库的项目的概况

数据仓库的项目的概况

1. 项目适用于哪些行业?
线上的互联网行业,例如淘宝,安居客等等

2. 我准备选择一个什么样的业务公司来写这个项目?
我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做数仓项目

3. 项目中主要开发哪些模块?分别有什么用途?
数据仓库 用户画像 个性推荐
数仓:数据存储运算,
用户画像:根据埋点数据给用户贴标签
个性推荐:根据用户画像,精准的给用户进行精准投放推荐

4. 项目的整体技术架构我能自己画出来吗?
前段数据源(pc端,移动端,业务系统数据库)
数据采集汇聚(flume采集日志文件(离线)和sqoop采集日志文件(实时))
数据预处理(数据清洗,解析json,数据继承,信息回补,guid生成)
数仓ODS层 (PC端埋点日志表,移动端埋点日志表,用户注册信息表,订单信息表)
数仓DWD层 (事件全量明细,广告事件明细,流量事件明细,交互事件明细,商品信息宽表,订单信息宽表,物流信息宽表,评论信息宽表)
数仓DWS层 ()
数仓ADS层 (流量多维报表,日新统计报表,日活统计报表,用户留存报表,用户活跃报表,广告概况报表,路径分析报表,转化漏斗报表)
数据服务层 导到数据库中去,(mysql,hbase…) presto内存跨源查询
web区域: 应用层 (不属于大数据,推荐引擎,广告投放,数据运营分析,数据运营分析)
azkaban 任务调度系统 (避免每天写重复的代码)
atlas 元数据管理系统 (数据资产 web系统)

5. 项目内核之上的应用系统都有哪些?
运营分析平台(界面)
精准营销平台 (界面)(用户画像标签表)
精准广告投放系统(后端)
个性化推荐系统(后端)

6. 运营分析平台你能稍作描述吗?
在线交互式连接数据分析(OLAP)(参考神策数据)

7. 项目中处理的数据有哪些种类?(有埋点日志数据 和 业务数据)

两大块数据的意义:收集用户行为,收集用户操作事件(点赞,评论,收藏)每一个行为都是一条日志

a)埋点日志数据 :可以埋在前段gs语言(html页面/H5页面/app/微信小程序)也可以埋在后端,多数用json格式数据表示
埋点日志数据中大都有  时间信息  地域信息  用户属性  终端设备属性信息  事件信息

终端设备属性信息  (手机类型imei入网许可,ims手机卡的码,max无线网卡地址)  
事件信息  (你在手机上干啥了?点击,收藏,打开浏览器,)

b)业务数据 :业务系统里面业务功能所所需要的以及所产生的数据
当你登陆的时候也会用到你当时注册的被封装到数据库的数据,这个数据就是业务数据,
当你点开淘宝宝贝详情出现的提前封装好的数据,这个数据就是业务数据.
淘宝录入的商品信息,你添加到导购物车商品的数据被封装好点了他也是业务数据.
凡是业务系统上的表都是业务数据

8. 埋点日志中都有哪些数据内容?
时间信息 地域信息 用户属性 终端设备属性信息 事件信息

9. 你们埋点日志中收集的事件都有哪些?能举几个例子吗?
埋点日志数据 :可以埋在前段gs语言(html页面/H5页面/app/微信小程序)也可以埋在后端,多数用json格式数据表示
埋点日志数据中大都有 时间信息 地域信息 用户属性 终端设备属性信息 事件信息

终端设备属性信息  (手机类型imei入网许可,ims手机卡的码,max无线网卡地址)  
事件信息  (你在手机上干啥了?点击,收藏,打开浏览器,)

10.什么是业务数据?业务数据都是怎么产生的?
业务数据 :业务系统里面业务功能所所需要的以及所产生的数据
当你登陆的时候也会用到你当时注册的被封装到数据库的数据,这个数据就是业务数据,
当你点开淘宝宝贝详情出现的提前封装好的数据,这个数据就是业务数据.
淘宝录入的商品信息,你添加到导购物车商品的数据被封装好点了他也是业务数据.
凡是业务系统上的表都是业务数据

11.能举例说明你们公司的业务数据有哪些吗?
有业务系统产生这些信息本来都在业务系统所依赖的数据库中,要调到hdfs中做分析,通过sparksql.read.jdbc(192.168.13…)调入
会员信息 商品的属性信息 优惠活动信息

12.数据库是指的什么?都有哪些应用场景?
数据库不带感情色彩的就是软件 例如:mysql oracle db2
主要用于 联机事物处理 OLTP(on live transaxtion proeess)
时刻保持联机在线状态 频繁的在做(增删改查)请求能够得到响应
支撑强有力的事物控制(事物的四个特征: 原子 ,一致, 隔离,持久 )

数据库也是可以数据分析的但是有弊端:数据库运算为单机运算效率低,
数据库储存空间有限制数据满了以后会降低数据的安全性,当数据出现效率低,
安全性低之后会造成客户流失,客户粘性下降,从而影响公司的收益,
如果在hdfs中运算则会避免这样的现象出现,因为hdfs是集群运算会提高运算效率,hdfs海量存储空间大,

13.数据库和数据仓库有什么联系和区别?(数据库=>工具,数据仓库=>应用)
数据库将的是数据库本身,而数据仓库讲的是应用领域把公司的数据集成一起相对稳定而且还能动反映历史的变化.
数据仓库(data warehouse)是一个 面向主题点的 集成的 相对稳定的 反应历史变化的数据集合,用于支持管理运营决策
(通俗来说数仓就是一个数据备份和数据管理的系统)
数仓是稳定的 业务系统不会去操作你的数仓的,业务系统操作的你的业务系统的数据库,仓库主要是存储一餐存进来的就不改了,
数仓是的反应历史变化的 业务数据库更新了不会保留历史数据但是数仓就会保存历史数据所以它能反映历史变化的.

14.数据分析有哪两种形式?分别有什么区别或特点?
1)联机分析(OLAP)
2)离线数据分析
两者的混合体是更长见的情况.

发布了48 篇原创文章 · 获赞 11 · 访问量 1553

猜你喜欢

转载自blog.csdn.net/weixin_45896475/article/details/103899784
今日推荐