利用鸢尾花数据，解释并不是特征越多越好 - 代码天地

利用鸢尾花数据，解释并不是特征越多越好

其他 2018-10-26 12:34:25 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u014727529/article/details/80395914

#首先导入我们需要的包

from sklearn import datasets

import numpy as np

from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Perceptron

from sklearn.metrics import accuracy_score

#然后选用鸢尾花的第2,3列特征（画图可以发现这俩个特征可以很好的区分开来）

Iris = datasets.load_iris()
X = Iris.data[:,[2,3]]
y = Iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0) #对训练数据进行划分
sc = StandardScaler()#以下几步为对数据进行标准化处理，防止由于某个特征过大，导致其他特征作用不明显
sc.fit(X_train)
X_train_std = sc.transform(X_train)
x_test_std = sc.transform(X_test)
ppn = Perceptron(n_iter=40,eta0=0.1,random_state=0)#训练感知机分类器
ppn.fit(X_train_std,y_train)
y_pred = ppn.predict(x_test_std)
print('预测错误的样本数:%d'%((y_test)!=(y_pred)).sum())

print('本测试的准确率为%.2f'%(accuracy_score(y_test,y_pred)))#注意，如果写%d由于取得是整数，所以最后的结果可能为0（%.2f）以为取俩位小数

#尝试把四个特征都跑一下，看下最终的效果
X_all =Iris.data
y_all = Iris.target
X_all_tarin,X_all_test,y_all_train,y_all_test = train_test_split(X_all,y_all,test_size=0.1,random_state=1)
sc1 = StandardScaler()
sc1.fit(X_all_tarin)
X_all_tarin_std = sc1.transform(X_all_tarin)
X_all_test_std = sc1.transform(X_all_test)
ppn_all = Perceptron(n_iter=50,eta0=0.1,random_state=0)
ppn_all.fit(X_all_tarin_std,y_all_train)
y_all_pred = ppn_all.predict(X_all_test_std)

print('使用全部数据得到的分类准确度%.2f'%(accuracy_score(y_all_test,y_all_pred)))

#经过比较我们发现，并不是特征越多越好，但是如何选取特征，有兴趣的小伙伴可以学习下特征工程

猜你喜欢

转载自blog.csdn.net/u014727529/article/details/80395914

利用鸢尾花数据，解释并不是特征越多越好

说说const的作用，越多越好

特征真的越多越好吗？从特征工程角度看“garbage in，garbage out”

33. ConcurrentHashmap的锁是如何加的？是不是分段越多越好

ConcurrentHashmap的锁是如何加的？是不是分段越多越好

卷积核的数量是不是越多越好？-分类0，5

【贪心例题专题】&贪心~越多越好哟~&

sincerit LLLYYY的数字思维(9越多越好)

淘金币抵扣比列设置越多越好吗？

生活中的物品到底是越多越好还是越少越好？

Tensorflow鸢尾花分类（数据加载与特征处理）

基于SVM的鸢尾花数据集不同特征的分类

sublime 不是插件安装越多越好，如xxxsnippet 自动完成插件太多，就非常耗电脑性能，经常性的卡着不动

索引不是越多越好，理解索引结构原理，才有助于我们建立合适的索引！

电脑内存并不是越大越好！

鸢尾花数据集

利用线性回归实现鸢尾花数据集分类

【优化】网站内容更新得越多越好吗

股票量化分析系统浅析之（五）训练集越多越好吗

app广告变现策略——waterfall层级越多越好吗

像素越多越好？像元的面积越小越好？为何底大一级压死人？

利用朴素贝叶斯分析鸢尾花，代码有详细解释。

外贸网站seo产品越多越好吗？外贸网站seo具体怎么做?

分析鸢尾花数据集

iris 鸢尾花数据集

鸢尾花数据集使用

鸢尾花(iris)数据集

【机器学习】鸢尾花数据探索

鸢尾花数据读取的总结

用聚类分析鸢尾花数据

今日推荐

周排行

键盘回车事件

提升git clone的速度

JDK8系列之LongAdder解析

ajax+formData完成多图片回显上传

个税起征点上调至5000元，你能多拿多少钱？

Exploding Carbon Nanotubes Could Work as Drug-Bas power sensor ed Delivery Devices

南京邮电大学网络攻防训练平台逆向第四题WxyVM

HTTP状态码记录

报错Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解决办法

sublime编译c

每日归档

更多

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)