数据分析（一）基本模型与概念

其他 2019-03-04 09:11:13 阅读次数: 0

数据分析（一）基本模型与概念

基本模型

数据分析模型
文本分析模型

主要概念

数据分析
数据挖掘十大经典算法
推荐系统
社交网络
文本分析

能力延伸

网络爬虫
数据库
分布式计算（大数据的需求）
数理统计知识
线性代数
数学积分
数据结构
深度学习

基本模型

在本系列中所谈及的数据分析主要是指比较基础常见的技术操作，以及与文本挖掘、自然语言处理等的交叉部分；能力延伸部分是本人近日在准备春招过程中，参照不同企业的招聘需求和笔试题列举出的部分考查点。疏漏之处请各位大佬指出。

这系列的第一篇是作为字典使用的，总结本系列中出现的基础模型和主要概念。既方便新手从全局去学习这个系列，也方便老司机对照下可能需要补充的能力。

暂时就想到这些，后边有发现其他发现再不定期更新吧。
之前在知乎发过另一篇，可以相互对照参考下。

数据分析模型

（BTW，数据分析师的基本素质之一：异动指标分析，深度的专题分析，提炼数据产品需求）

业务调研
准备数据
2.1 数据抽样
2.2 数据过滤
2.3 数据预处理
浏览数据
3.1 可视化
3.2 聚类
3.3 关联分析
变量选择
4.1 特征工程：确定自变量
4.2 根据分析的目标确定因变量
定义/发现模型
5.1 分类
5.2 回归
5.3 聚类
计算模型参数
6.1 拟合模型
6.2 遍历参数
模式评估与解释
7.1 评估指标
7.2 解释模型参数
7.3 测试与验证

文本分析模型

业务调研
准备文本/获取语料
2.1 标准开放公开测试数据集
2.2 爬虫抓取
2.3 文本预处理
浏览数据
构造文本特征
4.1 词袋表示
4.2 词向量表示/词嵌入
文本特征处理
5.1 特征选择
5.2 特征降维
发现模式/模型训练
6.1 文本分类
6.2 文本聚类
6.3 主题分析
6.4 情感分析
模型评估与解释
7.1 评估指标
7.2 解释模型参数
7.3 测试与验证

主要概念

数据分析

数据类型，数据对象，基本统计信息，相似性度量
数据预处理：数据清洗，数据集成，数据转换，数据归约；缺失值处理，异常检测，错误发现与修复，变量离散化，变量标准化
分类模型：决策树，K近邻，朴素贝叶斯，支持向量机，多层感知机；随机森林，AdaBoost，GBDT
回归模型：线性回归，逻辑回归，生存模型，Beta 回归，判别分析
聚类模型：K-Means，二分K-Means，K-Medroids；层次聚类，划分聚类，密度聚类，模型聚类（高斯混合）
集成模型：Bagging VS Boosting VS Stacking
分类性能评估指标：准确率，精度，召回率，F1值，Kappa，ROC，AUC
回归性能评估指标：MAE，MSE，R²
聚类性能评估指标：外部指标，内部指标（簇内相似度，簇间分离度）
偏差 Bias VS 方差 Variance：含义，性质，如何利用
特征工程

数据挖掘十大经典算法

C4.5
K-Means
SVM
Apriori：关联规则分析；支持度与置信度
EM
PageRank
AdaBoost
KNN
Naive Bayes
CART

推荐系统

推荐系统，广告系统，搜索引擎
推荐算法

社交网络

社交网络分析
社区活跃度
社团挖掘
网络中心性
信息源检测

文本分析

NLP基础技术：汉语分词，词性标注
NLP应用技术：推荐系统，机器翻译，对话问答，语音识别与合成
文本表示模型——向量空间模型（VSM）：布尔，TF，TF-IDF，N-Gram，文本相似度，文本降维
文本分类，文本聚类
主题分析
情感分析

能力延伸

网络爬虫

HTML，TCP，IP
scrapy
urllib
cookie
八爪鱼

数据库

SQL 基本语法
不同语法执行顺序：from, join on, where, group by, having, select, ordered by…
数据仓库

分布式计算（大数据的需求）

Mapreduce, Hadoop, Spark
Hive, Storm, Kafka

数理统计知识

最最基本的要求：能计算指定场景/事件的发生概率
贝叶斯公式
A/B 测试：方差检验
泊松，正态，二项，均匀，卡方，T，F 分布：期望，方差，公式，适用场景，如何检验是否符合
共线性，相关系数，协方差
切比雪夫不等式
最小二乘法：公式，参数，推导
检验：Q-Q 图，秩检验，K-S 检验，t 检验
中心极限定理 VS 大数定理
分布左偏/右偏
卡特兰数问题
极大似然

线性代数

克莱姆法则 VS 行列式
矩阵
向量
范数 VS 范数的求导
线性变换

数学积分

微积分，求导，求极限
鞍点的性质
Hessian 矩阵

数据结构

二叉树：先序，中序，后序
基本排序算法：冒泡，选择，插入，快速，堆，归并，希尔
KMP 字符串匹配算法
哈夫曼编码

深度学习

Tensorflow, Pytorch, Keras
SGD, BGD, Ada delta, Momentum：超参数的设置，敏感性，梯度消失
Linux 操作系统
CNN VS LSTM：原理，应用场景

猜你喜欢

转载自blog.csdn.net/weixin_42527725/article/details/86436381

数据分析（一）基本模型与概念

python数据分析与算法之一基本概念

数据分析（一）----- 基本概念及分析软件安装

数据分析概念

数据分析的概念

（大数据分析学习）05、矩阵的基本概念

06 | 数据分析要掌握的基本概念

数据分析之基本概念大纲概要

Tableau入门-1-数据分析基本概念

Python爬虫数据分析的基本概念

数据分析模型

数据分析基础概念

数据分析入门的一些注意概念

谁说菜鸟不会数据分析（入门篇）----- 学习笔记1（数据分析基本概念）

数据分析的基本流程

数据分析基本方法

数据分析基本技巧及python实现（一）

阐明一个数据分析的基本流程

数据分析（一）

机器学习与数据分析课程笔记-机器学习基本概念

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

Apache Spark 的基本概念和在大数据分析中的应用

第十六章时间序列数据分析基本概念

自学数据分析——数据分析方法和模型

数据分析-RFM模型用户分析

数据分析能力模型分析与展示

数据分析商业逻辑模型简介（一）：AARRR模型、漏斗模型

Spark数据分析概念入门

SQL数据分析概念与基础命令

大数据分析师的概念

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)