流式技术架构
1.数据采集，Kafka
2.数据处理，Storm
去重指标布隆过滤器，基数估计
数据倾斜去重指标分桶，非去重指标分桶
事务处理
3.数据存储 Hbase
表名设计, 汇总层标识+数据域+主维度+时间维度
rowkey设计，MD5(ID前几位)+卖家ID+app+一级类目ID+二级类目ID
4.数据服务调用方只需使用服务层暴露的接口
屏蔽存储系统间的差异

流式数据模型
1.ODS层，订单粒度变更过程，一笔订单有多条记录
2.DWD层，订单粒度支付记录，一笔订单只有一条记录
3.DWS层，卖家的实时成交金额，一个卖家只有一条记录且指标实时刷新
4.ADS层，外卖地区的实时成交金额，只有外卖业务使用
5.订单商品类目和行业的对应关系维表

数据服务

架构演进

通过SOA方式暴露接口
OpenAPI方式，增加逻辑表减少暴露的接口
Domain Sepcific 语言，通过逻辑表SQL进一步减少接口
统一数据服务层，对逻辑表SQL按业务分类

最佳实践
性能
1.剥离计算资源
2.查询资源分配，耗时和简单查询分配到不同线程中
3.执行计划优化，拆分查询，合并查询
4.元数据缓存
5.模型缓存
6.结果缓存
7.合并查询

稳定性
1.元数据隔离，测试，预生产，生产多个环境
2.隔离发布，资源划分，资源独占
3.隔离，机房隔离，分组隔离
4.安全限制，最大返回记录数，超时时间
5.监控，调用日志采集，调用监控
6.限流和降级

数据挖掘

数据挖掘平台
基于MaxCompute MPI的机器学习算法
分类算法，LogisticRegression，kNN，GBDT，DTC5.0，RaddomForest，linearSVM，onnlinearSVM,
NavieBayes，Bayes，Fisher判别，马氏距离判别，标签传播分裂
回归算法，LinearRegression，GBDT，LASSO，RidgeRegression，Factorization Machines，XGBoost
聚类算法，K-Means，Canop，PSC谱聚类，标签传播聚类，EM聚类
推荐算法，etrec协同过滤，SVD协同过滤，ALS协同过滤
深度学习，Word2Vec，Doc2Vec，CNN，DBN，DeepMatchModel
其他， PageRank，LDA，pLSA，关联规则，NMF，CRF，SVD，RankSVM，PCA，kcore，sssp，
Modularity计算

数据挖掘中台系统
1.特征层
2.中间层
3.应用层

数据挖掘案例

用户画像，浏览，收藏，交易给用户贴标签，商品名称标签(通过算法确定类别)，给用户贴标签，精准推荐
互联网反作弊，账户/资金安全与网络欺诈防控，非人行为和账户识别，虚假订单和信用炒作广告和APP安装反作弊，UGC而已信息监测

数据模型

建模综述

Linus，烂程序员关心的是代码，好程序员关心的是数据结构和他们之间的关系
建模的好处
性能，成本，效率，质量
OLTP系统，面向数据是随机读写的系统
OLAP系统，面向批量读写的系统

经典模型
ER模型，数据仓库之父Bill Inmon提出的
Data Vault模型
Anchor模型

阿里数据模型
1.基于Oracle的完全应用驱动
2.基于GreenPlum的四层模型，操作数据层，基础数据层，接口数据层，应用数据层
3.基于Hadoop/MaxCompute的分布式计算平台

数据整合及管理体系

模型设计
操作数据层，把操作系统数据几乎无处理的放在数据仓库中
公共维度模型层，存放明细事实数据，维表数据及公共指标汇总数据
应用数据层，存放数据产品个性化的统计指标数据，根据上两层加工而来

业界常用模型
Kimball模型
Inmon模型

维度设计

确定维度属性的几点提示
1.尽可能生成丰富的维度属性
2.尽可能多的给出包含一些富有意义的文字性描述
3.区分数值型属性和事实
4.尽量沉淀出通用的维度属性

事实表设计

事实表类型
1.事务事实表
2.周期快照事实表
3.累计快照事实表

事务表设计原则
1.尽可能包含所有与业务过程相关的事实
2.只选择与业务过程相关的事实
3.分解不可加性事实为可加的组建
4.在选择维度和事实之前必须先声明粒度
5.在同一个事务表中部能有多种不同粒度的事实
6.事实的单位要保持一致
7.对事实的null值要处理
8.使用退化维度提高事实表的易用性

事务事实表
淘宝交易事务事实表，关联的
店铺维度，发货地区维度，收货地区维度，买家维度，卖家维度，商品维度，类目维度，父订单维度

周期快照事实表
交易历史至今快照事实表，关联卖家维度，业务日期
商品历史至今快照事实表，商品维度，业务日期
卖家历史至今快照事实表，业务日期，卖家维度，买家维度
卖家信用分快照事实表，卖家维度，业务日期

累积快照事实表
记录一次交易不断变化的过程

三种事实表比较

	事务事实表	周期快照事实表	累计快照事实表
时期/时间	离散事务点时间	以有规律的可以预测的间隔产生快照	用于时间快读不确定的不断变化的工作流
日期维度	事务日期	快照日期	相关业务过程设计的多个日期
粒度	每行代表实体的一个事务	每行代表某时间周期的一个实体	每行代表一个实体的生命周期
事实	事务事实	累计事实	相关业务过程事实和时间间隔事实
事务表加载	插入	插入	插入和更新
事实表更新	不更新	不更新	业务过程变更时更新

数据管理

元数据

元数据分类，技术元数据，业务员数据
常见的技术元数据
1.分布式计算系统存储元数据，如MaxCompute表，列，分区信息
2.分布式计算系运行元数据，如MaxCompute上所有作业运行信息
3.数据开发平台中数据同步，计算任务，任务调度信息
4.数据质量和运维相关元数据

DataProfile，给元数据贴标签
1.基础标签，针对元数据存储情况，访问情况，安全等级
2.数仓标签，对数据是增量还是全量，是否可再生，数据生命周期
3.业务标签，根据数据归属的主题域，产品线，业务类型打标签
4.潜在标签，为了说明潜在的应用场景如社交，媒体，广告，电商，金融等

元数据门户
前台，和产品为数据地图，定位消费市场，实现检索数据
后台，产品为数据管理，定位于一站式数据管理

应用链路分析
表级血缘关系，重要性分析，下线分析，寻根分析，故障排除

计算管理

Map-Reduce人物不均衡
根据历史数据优化
根据代价的优化器

优化任务
Map倾斜
Join倾斜
Reduce倾斜

存储和成本管理

数据压缩，类似RAID方式存储数据，压缩比1:1.5，但恢复增加
数据重分布
存储治理项优化

生命周期管理
1.周期性删除策略
2.彻底删除策略
3.永久保留策略
4.极限存储策略
5.冷数据管理策略
6.增量表merge全量表策略

历史数据等级划分
P0，非常重要的主题域数据和非常重要的应用数据
P1，重要的业务数据和重要的应用数据
P2，重要的业务数据和重要的应用数据
P3，不重要的业务数据和不重要的应用数据

数据质量

数据质量保障原则
完整性
准确性
一致性
及时性

数据资产等级定义
毁灭性质，一旦出错将引起重大资产损失
全局性质，数据直接或间接用于集团级企业
局部性质，影响内部一般数产品或运营
一般性质，影响小二日常数据分析

质量衡量
数据质量起夜率
数据质量事件
数据质量故障体系

数据应用

生意参谋
看我情
看行情
看敌情

产品建设历程
临时需求阶段
自动化报表阶段
自主研发BI工具阶段
数据产品平台

整体架构
数据监控，提供给内部小二使用
数据分析，专题运营小二自助分析
应用分析，对接前台系统自动化应用分析
数据决策，高管/决策层数据辅助决策

大数据之路

数据技术篇

日志采集

数据同步

离线数据开发

实时技术