1. 该项目适用哪些行业?
主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等)
这类公司通常要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析,数据挖掘!以支撑公司的业务运营,提高业务转化率,改善公司运营效果
数据挖掘:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标
2. 我准备选择一个什么样的业务公司来写这个项目?
线上商城
3. 项目中主要开发哪些模块?
- 数据仓库:
作为数据的管理和运算中心
- 推荐系统
用于个性化推荐,对不同的人,在不同的场景中推荐不同的物品
- 用户画像系统
用于支撑精细化运营;比如针对不同人群(发放不同的优惠券、制定不同的打折规则、推行不同的营销活动),针对流失概率大的人群进行挽留等等
以上所述的数据仓库系统、用户画像系统、推荐系统,整体上来说,需要一个大型的综合性的数据处理系统;该数据处理系统可以使用离线计算方式实现,也可以使用实时计算方式实现;更多的是离线和实时结合起来实现;我自己的公司是根据不同的需求场景,灵活使用离线和实时技术:
- 离线:系统化的,计算的数据时间跨度长的,运算量大的任务
- 实时:对时效要求高的需求
4. 画出项目中的整体技术架构
- 数据采集阶段:
flume(各业务的日志数据)、sparksql(各业务的数据库数据)
5. 项目内核之上的应用系统都有哪些?
6. 运营分析平台你能稍作描述吗?
7. 项目中处理的数据有哪些种类?
9. 你们埋点日志中收集的事件都有哪些?能举几个例子吗?
10. 什么是业务数据?业务数据都是怎么产生的?
11. 能举例说明你们公司的业务数据有哪些吗?
12. 数据库是指的什么?都有哪些应用场景?
13.数据库和数据仓库有什么联系和区别?
14.数据分析有哪两种形式?分别有什么区别或特点?