12/25/2018笔记

传统统计模型->回归模型（可解决过去和预测未来）
数据挖掘模型->决策树、神经网络等（只能预测未来）

横截面模型：多元回归，逻辑回归，托宾回归（涉及到泊松分布）
向量自回归模型（VAR）
支持向量机：二分类模型；
二分类模型是很多模型的基础；比如苹果人脸识别是将人类划分为240个指标来到底层的决策树区分人

如果有n个数据，那么在n-1维一定可以将这每个数据区分
一般商业上5维空间就能区分80%数据

如果两个向量垂直，那么他们的点乘结果一定是个数字
特征向量：线性变化后位置没变的向量
特征值：特征向量被线性变化后拉伸的倍数

如果所有基向量都是特征向量，那么它一定是对角阵

奇异值分解就是把一个矩阵拆分成3个矩阵连乘；最右边是让空间旋转，最左边是旋转，中间是拉伸，也是个对角阵；它的主要作用是数据降维；在统计学里也叫主成份分析
例题：红楼梦一共120回，验证前80回和后20回不是同一个人写的
过程：
1.数据清洗
2.数据转换
3.主成份分析
#1.找出每一回都出现的词（过滤掉绝大部分名词）
#2. 合并虚词，过滤重复的词语，计数排序（120行表示120回，n多列不同的词语，之后进行计数每个词语在每回出现的次数）
#3. 进行降维，只保留3维
#4. 建立图形验证

支持向量机：先低维到高维，再从高维到低维
核函数：高维空间的点乘一定可以通过低维的多项式表示
在这里插入图片描述

猜你喜欢