〖数据挖掘〗weka3.8.6的安装与使用

目录

背景

一、安装

二、使用explorer

1. 介绍

2.打开自带的数据集(Preprocess)

1.打开步骤

2.查看属性和数据编辑

3.classify

4.Cluster

5.Associate

6.Select attributes

7.Visualize

待补充


背景

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费
的,非商业化软件,与之对应的是SPSS公司商业数据挖掘产品--Clementine ;weka是基于JAVA环境下开源的
机器学习(machine learning)以及数据挖掘(data mining)软件。Weka的主要开发者来自新西兰的怀卡托大学(The University of Waikato)。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

一、安装

安装简单,一路next。

1.打开weka3.8.6的安装包

01a951b74d564fc6a163646f64f61793.png

2.点击 next

fc075071a2ca4ce781b3893ec5e31aa2.png

 3.点击I Agree

1a1770dee2484f2a89fb0a87121f1440.png

4.点击next

f413b17809164c7eb582fc20fc46a10a.png

5.选择安装路径如:D:\weka-3-8-6

0eb3e6ea3ebc4e5189bba8655f82f0ac.png

6.点击install

9aa430e8e47045eea074f1b943fd0740.png

等待后,finish。下面是安装成功后打开的初始界面d257cfe5582f4121bb138ff161730403.png

二、使用explorer

bb3bb2f14f8a4b479f02ad2b4844fbe9.png

1. 介绍

5832686aa24c45e99253b48d03ed201b.png

Preprocess:预处理
Classify:分类
Cluster:聚类
Associate:关联
Select attributes:选择属性
Visualize:可视化

e3c730d43d4245a0887bcac5a08e5a73.png

  • open file:从文件中打开一组实例
  • open URL:从URL中打开一组实例
  • open DB:从数据库中打开一组实例
  • generate:生成人工数据
  • undo:撤销对数据集最后更改
  • edit:在查看器中打开当前数据集进行编辑
  • save:将工作关系保存到文件中

 2fa52ca9246f4acba8585f27e8750598.png

属性

  • ALL:全选
  • None:全不选
  • invert:取反
  • pattern:输入perl正则表达式

2b52ccf01a1544df95502cc4755df3b3.png

该位置展示具体属性都有什么

  • remove:选择属性后,点击删除,可用undo撤回。

aae1d5c2df6247b9ba9e5fa181f8cc67.png

当前的关系

  • 关系:投票  属性:17
  • 实例:435   权重和:435

2.打开自带的数据集(Preprocess)

1.打开步骤

选择openfile

80a83d63817b43eeb63dff1fa8b61e50.png

选择data文件

 1f006d3c282f43fca20a650fc4bcadb0.png

这里我们可以看到一些weka自带的数据集

468d19189e1c4a7b8ecbe141894ecaac.png

选择其中一个数据集打开,我选择的是vote.arff

05d29e668a5746d68c33cd51023b290d.png

2.查看属性和数据编辑

2.1查看属性

选择属性,可以下拉查看并选择

b326139b40dd4401b96c9db33f3dfb95.png

 411d7e5d8a154f05a4c7b4edc4be3ee5.png

Visualize All:查看所有属性直方图

b467e84288424be5946c50301e209527.png

2.2数据编辑

001043e1292641cb88faec51ded3d323.png

 点击Edit,弹出viewer,在这里面可以查看并编辑数据。

3dafa6212b744971944cc9d04d1e8f58.png

3.classify

分类是指根据事物的某些共同特征,将它们分成若干组或类别,以达到简化、归纳和管理的目的。在机器学习领域中,分类是指根据已有数据集中的特征和标签信息,训练出一个算法模型,用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型,其应用广泛,如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。

d5237fb1bdaa45ceb563ce22bfe3484f.png

e66e72f21e6244c3b6b5ddd827b5331b.png

测试选项 

  • Use training set:使用训练集
  • Supplied test set:提供测试集
  • Cross-validation:交叉验证
  • Percentage split:按比例分配
  • start:点击即用

4.Cluster

聚类是指根据一组数据的相似性,将它们分为若干个组或簇,使得同一个簇内的元素彼此相似,不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题,与分类问题不同,聚类问题中没有预先定义好的标签信息,需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域,是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。

b837b1cfd4b74607901c8a87081670fa.png

集群模式【Cluster mode】

  • Use training set:使用训练集
  • Supplied test set:提供测试集
  • Percentage split:比例分割
  • Classes to clusters evalation:类到聚类的评估

5.Associate

6faacb8663174c688e803a37c5b12138.png

6.Select attributes

8246a87ad7fd40f8a2ed8018931cb38b.png

属性选择模式

  • Use full training set:使用完整的训练集

  • Cross-validation:交叉验证

7.Visualize

fb79175aea5c4f5fb3cf9a61ae0cd6b2.png

  • update:更新
  • select attribute:选择属性
  • subsample:子样品

待补充

猜你喜欢

转载自blog.csdn.net/weixin_53197693/article/details/130553092