数据分析(一)基本模型与概念
基本模型
在本系列中所谈及的数据分析主要是指比较基础常见的技术操作,以及与文本挖掘、自然语言处理等的交叉部分;能力延伸部分是本人近日在准备春招过程中,参照不同企业的招聘需求和笔试题列举出的部分考查点。疏漏之处请各位大佬指出。
这系列的第一篇是作为字典使用的,总结本系列中出现的基础模型和主要概念。既方便新手从全局去学习这个系列,也方便老司机对照下可能需要补充的能力。
暂时就想到这些,后边有发现其他发现再不定期更新吧。
之前在知乎发过 另一篇 ,可以相互对照参考下。
数据分析模型
- (BTW,数据分析师的基本素质之一:异动指标分析,深度的专题分析,提炼数据产品需求)
- 业务调研
- 准备数据
2.1 数据抽样
2.2 数据过滤
2.3 数据预处理 - 浏览数据
3.1 可视化
3.2 聚类
3.3 关联分析 - 变量选择
4.1 特征工程:确定自变量
4.2 根据分析的目标确定因变量 - 定义/发现模型
5.1 分类
5.2 回归
5.3 聚类 - 计算模型参数
6.1 拟合模型
6.2 遍历参数 - 模式评估与解释
7.1 评估指标
7.2 解释模型参数
7.3 测试与验证
文本分析模型
- 业务调研
- 准备文本/获取语料
2.1 标准开放公开测试数据集
2.2 爬虫抓取
2.3 文本预处理 - 浏览数据
- 构造文本特征
4.1 词袋表示
4.2 词向量表示/词嵌入 - 文本特征处理
5.1 特征选择
5.2 特征降维 - 发现模式/模型训练
6.1 文本分类
6.2 文本聚类
6.3 主题分析
6.4 情感分析 - 模型评估与解释
7.1 评估指标
7.2 解释模型参数
7.3 测试与验证
主要概念
数据分析
- 数据类型,数据对象,基本统计信息,相似性度量
- 数据预处理:数据清洗,数据集成,数据转换,数据归约;缺失值处理,异常检测,错误发现与修复,变量离散化,变量标准化
- 分类模型:决策树,K近邻,朴素贝叶斯,支持向量机,多层感知机;随机森林,AdaBoost,GBDT
- 回归模型:线性回归,逻辑回归,生存模型,Beta 回归,判别分析
- 聚类模型:K-Means,二分K-Means,K-Medroids;层次聚类,划分聚类,密度聚类,模型聚类(高斯混合)
- 集成模型:Bagging VS Boosting VS Stacking
- 分类性能评估指标:准确率,精度,召回率,F1值,Kappa,ROC,AUC
- 回归性能评估指标:MAE,MSE,R2
- 聚类性能评估指标:外部指标,内部指标(簇内相似度,簇间分离度)
- 偏差 Bias VS 方差 Variance:含义,性质,如何利用
- 特征工程
数据挖掘十大经典算法
- C4.5
- K-Means
- SVM
- Apriori:关联规则分析;支持度与置信度
- EM
- PageRank
- AdaBoost
- KNN
- Naive Bayes
- CART
推荐系统
- 推荐系统,广告系统,搜索引擎
- 推荐算法
社交网络
- 社交网络分析
- 社区活跃度
- 社团挖掘
- 网络中心性
- 信息源检测
文本分析
- NLP基础技术:汉语分词,词性标注
- NLP应用技术:推荐系统,机器翻译,对话问答,语音识别与合成
- 文本表示模型——向量空间模型(VSM):布尔,TF,TF-IDF,N-Gram,文本相似度,文本降维
- 文本分类,文本聚类
- 主题分析
- 情感分析
能力延伸
网络爬虫
- HTML,TCP,IP
- scrapy
- urllib
- cookie
- 八爪鱼
数据库
- SQL 基本语法
- 不同语法执行顺序:from, join on, where, group by, having, select, ordered by…
- 数据仓库
分布式计算(大数据的需求)
- Mapreduce, Hadoop, Spark
- Hive, Storm, Kafka
数理统计知识
- 最最基本的要求:能计算指定场景/事件的发生概率
- 贝叶斯公式
- A/B 测试:方差检验
- 泊松,正态,二项,均匀,卡方,T,F 分布:期望,方差,公式,适用场景,如何检验是否符合
- 共线性,相关系数,协方差
- 切比雪夫不等式
- 最小二乘法:公式,参数,推导
- 检验:Q-Q 图,秩检验,K-S 检验,t 检验
- 中心极限定理 VS 大数定理
- 分布左偏/右偏
- 卡特兰数问题
- 极大似然
线性代数
- 克莱姆法则 VS 行列式
- 矩阵
- 向量
- 范数 VS 范数的求导
- 线性变换
数学积分
- 微积分,求导,求极限
- 鞍点的性质
- Hessian 矩阵
数据结构
- 二叉树:先序,中序,后序
- 基本排序算法:冒泡,选择,插入,快速,堆,归并,希尔
- KMP 字符串匹配算法
- 哈夫曼编码
深度学习
- Tensorflow, Pytorch, Keras
- SGD, BGD, Ada delta, Momentum:超参数的设置,敏感性,梯度消失
- Linux 操作系统
- CNN VS LSTM:原理,应用场景