12/25/2018笔记

传统统计模型->回归模型(可解决过去和预测未来)
数据挖掘模型->决策树、神经网络等(只能预测未来)

横截面模型:多元回归,逻辑回归,托宾回归(涉及到泊松分布)
向量自回归模型(VAR)
支持向量机:二分类模型;
二分类模型是很多模型的基础;比如苹果人脸识别是将人类划分为240个指标来到底层的决策树区分人

如果有n个数据,那么在n-1维一定可以将这每个数据区分
一般商业上5维空间就能区分80%数据

如果两个向量垂直,那么他们的点乘结果一定是个数字
特征向量:线性变化后位置没变的向量
特征值:特征向量被线性变化后拉伸的倍数

如果所有基向量都是特征向量,那么它一定是对角阵

奇异值分解就是把一个矩阵拆分成3个矩阵连乘;最右边是让空间旋转,最左边是旋转,中间是拉伸,也是个对角阵;它的主要作用是数据降维;在统计学里也叫主成份分析
例题:红楼梦一共120回,验证前80回和后20回不是同一个人写的
过程:
1.数据清洗
2.数据转换
3.主成份分析
#1.找出每一回都出现的词(过滤掉绝大部分名词)
#2. 合并虚词,过滤重复的词语,计数排序(120行表示120回,n多列不同的词语,之后进行计数每个词语在每回出现的次数)
#3. 进行降维,只保留3维
#4. 建立图形验证

支持向量机:先低维到高维,再从高维到低维
核函数:高维空间的点乘一定可以通过低维的多项式表示
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41636030/article/details/85255006