数据分析(一)基本模型与概念

基本模型

在本系列中所谈及的数据分析主要是指比较基础常见的技术操作,以及与文本挖掘、自然语言处理等的交叉部分;能力延伸部分是本人近日在准备春招过程中,参照不同企业的招聘需求和笔试题列举出的部分考查点。疏漏之处请各位大佬指出。

这系列的第一篇是作为字典使用的,总结本系列中出现的基础模型和主要概念。既方便新手从全局去学习这个系列,也方便老司机对照下可能需要补充的能力。

暂时就想到这些,后边有发现其他发现再不定期更新吧。
之前在知乎发过 另一篇 ,可以相互对照参考下。

数据分析模型

  • (BTW,数据分析师的基本素质之一:异动指标分析,深度的专题分析,提炼数据产品需求)
  1. 业务调研
  2. 准备数据
    2.1 数据抽样
    2.2 数据过滤
    2.3 数据预处理
  3. 浏览数据
    3.1 可视化
    3.2 聚类
    3.3 关联分析
  4. 变量选择
    4.1 特征工程:确定自变量
    4.2 根据分析的目标确定因变量
  5. 定义/发现模型
    5.1 分类
    5.2 回归
    5.3 聚类
  6. 计算模型参数
    6.1 拟合模型
    6.2 遍历参数
  7. 模式评估与解释
    7.1 评估指标
    7.2 解释模型参数
    7.3 测试与验证

文本分析模型

  1. 业务调研
  2. 准备文本/获取语料
    2.1 标准开放公开测试数据集
    2.2 爬虫抓取
    2.3 文本预处理
  3. 浏览数据
  4. 构造文本特征
    4.1 词袋表示
    4.2 词向量表示/词嵌入
  5. 文本特征处理
    5.1 特征选择
    5.2 特征降维
  6. 发现模式/模型训练
    6.1 文本分类
    6.2 文本聚类
    6.3 主题分析
    6.4 情感分析
  7. 模型评估与解释
    7.1 评估指标
    7.2 解释模型参数
    7.3 测试与验证

主要概念

数据分析

  • 数据类型,数据对象,基本统计信息,相似性度量
  • 数据预处理:数据清洗,数据集成,数据转换,数据归约;缺失值处理,异常检测,错误发现与修复,变量离散化,变量标准化
  • 分类模型:决策树,K近邻,朴素贝叶斯,支持向量机,多层感知机;随机森林,AdaBoost,GBDT
  • 回归模型:线性回归,逻辑回归,生存模型,Beta 回归,判别分析
  • 聚类模型:K-Means,二分K-Means,K-Medroids;层次聚类,划分聚类,密度聚类,模型聚类(高斯混合)
  • 集成模型:Bagging VS Boosting VS Stacking
  • 分类性能评估指标:准确率,精度,召回率,F1值,Kappa,ROC,AUC
  • 回归性能评估指标:MAE,MSE,R2
  • 聚类性能评估指标:外部指标,内部指标(簇内相似度,簇间分离度)
  • 偏差 Bias VS 方差 Variance:含义,性质,如何利用
  • 特征工程

数据挖掘十大经典算法

  • C4.5
  • K-Means
  • SVM
  • Apriori:关联规则分析;支持度与置信度
  • EM
  • PageRank
  • AdaBoost
  • KNN
  • Naive Bayes
  • CART

推荐系统

  • 推荐系统,广告系统,搜索引擎
  • 推荐算法

社交网络

  • 社交网络分析
  • 社区活跃度
  • 社团挖掘
  • 网络中心性
  • 信息源检测

文本分析

  • NLP基础技术:汉语分词,词性标注
  • NLP应用技术:推荐系统,机器翻译,对话问答,语音识别与合成
  • 文本表示模型——向量空间模型(VSM):布尔,TF,TF-IDF,N-Gram,文本相似度,文本降维
  • 文本分类,文本聚类
  • 主题分析
  • 情感分析

能力延伸

网络爬虫

  • HTML,TCP,IP
  • scrapy
  • urllib
  • cookie
  • 八爪鱼

数据库

  • SQL 基本语法
  • 不同语法执行顺序:from, join on, where, group by, having, select, ordered by…
  • 数据仓库

分布式计算(大数据的需求)

  • Mapreduce, Hadoop, Spark
  • Hive, Storm, Kafka

数理统计知识

  • 最最基本的要求:能计算指定场景/事件的发生概率
  • 贝叶斯公式
  • A/B 测试:方差检验
  • 泊松,正态,二项,均匀,卡方,T,F 分布:期望,方差,公式,适用场景,如何检验是否符合
  • 共线性,相关系数,协方差
  • 切比雪夫不等式
  • 最小二乘法:公式,参数,推导
  • 检验:Q-Q 图,秩检验,K-S 检验,t 检验
  • 中心极限定理 VS 大数定理
  • 分布左偏/右偏
  • 卡特兰数问题
  • 极大似然

线性代数

  • 克莱姆法则 VS 行列式
  • 矩阵
  • 向量
  • 范数 VS 范数的求导
  • 线性变换

数学积分

  • 微积分,求导,求极限
  • 鞍点的性质
  • Hessian 矩阵

数据结构

  • 二叉树:先序,中序,后序
  • 基本排序算法:冒泡,选择,插入,快速,堆,归并,希尔
  • KMP 字符串匹配算法
  • 哈夫曼编码

深度学习

  • Tensorflow, Pytorch, Keras
  • SGD, BGD, Ada delta, Momentum:超参数的设置,敏感性,梯度消失
  • Linux 操作系统
  • CNN VS LSTM:原理,应用场景

猜你喜欢

转载自blog.csdn.net/weixin_42527725/article/details/86436381