机器学习系列（六）用scikit识别MNIST数据集，用到kNN和PCA 2020.6.7

其他 2020-06-25 10:17:49 阅读次数: 0

前言

本节是对前面所学知识的运用
主要是用kNN和PCA
训练MNIST数据集

较为简单

实现

import numpy as np
from sklearn.datasets import fetch_openml

"""尝试对MNIST数据集进行操作"""
# 数据
mnist = fetch_openml('mnist_784')
X, y = mnist['data'], mnist['target']
X_train = np.array(X[:60000], dtype=float)
y_train = np.array(y[:60000], dtype=float)
X_test = np.array(X[60000:], dtype=float)
y_test = np.array(y[60000:], dtype=float)
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

# kNN
from sklearn.neighbors import KNeighborsClassifier
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_train)
print(knn_clf.score(X_test, y_test)) #时间很长

# PCA
from sklearn.decomposition import PCA
pca = PCA(0.90) #保留90%信息
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)
print(X_train_reduction.shape)
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction, y_train)
print(knn_clf.score(X_test_reduction, y_test))
# 时间减少，精度增加，降噪的效果

结语

最终精度
kNN在0.97左右
PCA后在0.98左右
应该是降噪带来的效果

简单运用了下前面所学内容

猜你喜欢

转载自blog.csdn.net/weixin_44604541/article/details/106600467

机器学习系列（六）用scikit识别MNIST数据集，用到kNN和PCA 2020.6.7

机器学习系列（五） PCA（主成分分析）会用到scikit 2020.6.7

2020.6.7 假期学习计划

机器学习：PCA（实例：MNIST数据集）

面向机器学习的特征工程六、降维：用 PCA 压缩数据集

机器学习系列（二） kNN（k近邻算法）会用到scikit 2020.6.4

机器学习（2） - KNN识别MNIST

机器学习实战(用Scikit-learn和TensorFlow进行机器学习)(六)

机器学习、数据科学与金融行业系列六：数据治理（Data Governance）下

用Scikit-learn进行机器学习（三）：使用Scikit-learn进行KNN分析——鸢尾花的分类识别

机器学习学习笔记：用LeNet处理MNIST数据集

机器学习与深度学习系列连载：第一部分机器学习（六）训练数据和测试数据（Train data and Test data）

用tensorflow实现usps和mnist数据集的迁移学习

机器学习笔记（六）：KNN分类器

机器学习数据集-MNIST

【机器学习】实验四用python实现BP算法识别MNIST数据集手写数字

李航《统计学习方法》第三章——用Python实现KNN算法（MNIST数据集）

基于机器学习的掌纹识别与分类（PCA+SVM+KNN）

机器学习三人行(系列六)----Logistic和Softmax回归实战剖析(附代码)

机器学习面试系列六

学习笔记-SNN用STDP法的MNIST数据集识别代码深入阅读

用Scikit-learn进行机器学习（五）：使用Scikit-learn进行KNN分析——KNN模型的提升KD-Tree的原理和KD-Tree癌症案例

机器学习系列--KNN分类算法

KNN-机器学习实战系列（一）

机器学习系列算法1：KNN

机器学习系列(5) KNN算法

2.机器学习Tensorflow基于MNIST数据集识别自己的手写数字（读取和测试自己的模型）

机器学习Tensorflow基于MNIST数据集识别自己的手写数字（读取和测试自己的模型）

《机器学习与数据挖掘》实验六

机器学习 scikit-learn 数据集

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)