python大数据之傅里叶变换等

数据分析:

ubtun中安装cv2

使用cv2加载算法,识别图片中的人脸,

​ CascadeClassifier这个类就是已经用于识别人脸的,算法已经存在,只需要加载即可

​ face_detector = cv2.CascadeClassifier('./haarcascade_frontalface_default.xml)

使用face_detector去识别图片中的人脸,图片可以是任意的图片,返回人脸数据的坐标区域

​ face_zone = face_detector.detectMultiScale(image具体图片)

​ small_dog = cv2.resize(dog, (w,h))

​ for x,y,w,h in face_zone:

​ image[y:y+h, x:x+w] = small_dog

​ plt.imshow(image)-------------换头成功

#傅里叶变换--保留高频,去除低频,获取轮廓数据

傅里叶变换:(由时域转换为频域看事物)

​ from numpy.fft import fft,ifft

读取数据 cat = Image.open('./cat.png') 转换为字节 cat.tobytes()----再将字节转换为数字

转换为int类型 cat_data = np.fromstring(cat.tobytes(), np.int8) -------int8是从-128~127,共256个数

傅里叶转换,结果包括实数跟虚数 cat_fft = fft(cat_data) -----转换为波

将傅里叶数据滤除低频的波设置为0 cond = np.abs(cat_fft) < 1e5

​ cat_fft [cond] = 0

​ (低频的波表示变化不大,保留高频的波代表保留了图片中变化比较大的区域,即图片的边界轮廓)

将数据再进行反转 cat_ifft = ifft (cat_fft)

获取实数 cat_real = np.real (cat_ifft)

去除小数部分 cat_result = np.int8 (cat_real)

将过滤掉低频波的数据转换为图片

​ cat_lunkuo = Image.frombytes(mode='RGB', size = (730,456) , data = cat_results))

显示图片 cat_lunkuo

#机器学习

​ EM算法:对一个期望求最大值----EM期望最值

​ GMM与图像:图像的卷积

​ 去均值ICA分离---ICA独立成分分析:带噪声的信号分离i

​ SVM:高斯核函数的影响

​ LDA:数据主题模型的聚类降维---提取

​ 1 线性判别分析-----有监督----先降维,再分类

​ 2 主题模型分析----对文本----无监督---

​ HMM分词---MLE

​ 参考文献:两本书----PRML LAP; 李航--统计学与方法; 周志豪---西瓜书

数学: 二阶导反应的是曲线凹凸性,也称作光顺

​ Taylor公式的应用,---初等变换---近似----决策树----基尼系数

​ 方向导数----梯度grad---函数在该点变化最快的方向----梯度下降法

​ 概率论----累计分布函数cdf--一定是单增函数(最小值为0,最大值为1)---sigmoid函数用于回归,比如人口增长

​ 概率密度函数pdf

​ 全概率; 条件概率; 贝叶斯概率

​ 古典概型

​ SGD--随机梯度下降

​ 泊松分布的期望跟方差均为纳木达

​ 指数分布---无记忆性---半记忆性??

​ 二元正太分布

​ 最大似然估计与过拟合(决策树越深,过拟合越强)

​ 指数族分布---泊松分布,二项分布,高斯分布,伯努利分布

​ Gamma分布

​ 期望-----独立一定不相关,但不相关不一定独立,协方差等于0则代表两者不相关---一阶原点矩

​ 方差----二阶中心距

​ 协方差---指两个随机变量具有相同方向变化趋势的度量

​ 偏度---三阶---衡量随机变量概率分布的不对称性

​ 峰度---四阶---概率密度在均值处峰值高低的特征------高斯分布或正太分布峰值为3,没减3的为超值峰度

​ 奇数次做的是偏度的状态,偶数次表示的是尖度的状态

​ 伯努利定理

​ 中心极限定理

​ CLT实验

​ 矩估计----正态分布,样本均值为整体均值,

​ 贝叶斯公式:给定样本D某结论A发生概率最大,转换为求A使得D样本发生概率最大的值,---最大似然估计

​ 样本均值即为高斯分布的期望,样本的伪方差则为高斯分布的方差

SVD----奇异值分解---对称方阵在任意矩阵的推广

增加白化后的ICA效果

去均值ICA分离

OR分解---计算特征值

凹凸函数

模型:

​ 一般集成用弱分类器-----决策树---过拟合

​ Logistic回归/SVM(给定一个好的汉化因子)---强分类器

​ 随机森林---若干科决策树形成的

连续的---回归,

​ 线性回归----高斯分布,最大似然估计MLE,最小二乘法--复杂度惩罚因子---L1normal

​ Ridge,惩罚因子为非0正数, 平方的损失会抑制更大数据

​ LASSO 绝对值加和

​ Logistic回归---分类问题的首选算法,竞争者 SVM

​ 工具-----梯度下降法(批量下降或者随机下降);极大似然估计

不连续的----分类

猜你喜欢

转载自blog.csdn.net/jiangwei1102/article/details/80783276