WEKA使用

1.1 introduction

WEKA:数据挖掘工具

https://www.youtube.com/watch?v=Exe4Dc8FmiM

1.2 exploring the explorer

Download

->https://www.cs.waikato.ac.nz/ml/weka/downloading.html

选择Windows或linux,我选择Windows

->打开cmd,输入java -version,若不报错则说明已有java vm,那么就下载

Click here to download a self-extracting executable for 64-bit Windows without a Java VM
(weka-3-8-3-x64.exe; 51 MB)

->一路点下一步,一定要记住默认地址,最后一步不勾选立即启动

->下载完成后,进入上述默认地址文件夹,右击设置桌面快捷方式,并且复制data文件夹放到自己熟悉的地方

->打开软件 备注1

explore是主要用到的界面

experimenter界面是针对基于不同数据集的不同机器学习方法的大规模性能比较

knowledgeFlow是图形界面、命令行页面

->点击explore

上面有五个模块:预处理、分类、聚类、关联规则associate、属性选择select attribution、可视化界面

->

操作:Open file ~ 选择上面的data文件夹中的数据,观察属性值的图表

            Edit .. ~ 改变数据,save~保存改后的数据

举例 :weather data

数据:14天,4个天气属性,是否play

任务:通过属性判断是否play

1.3 exploring datasets

观察统计数据,检查数据是否存在问题,例如身高是否出现了负数这样的需要剔除的数据

Glass data:

Glass.arff文件,观察arff文件的格式:real就是numerical数据

1.4 building a classifier

选择explorer ->classify->trees ->J48,它是一个决策树分类器 ->start

迅速显示结果:不仅包含数据本身分析,还展示了树结构、结果分析例如混淆矩阵、TP、recall、precision。。

->点击左上角choose,出现各种可以调节的参数,例如unpruned设置为off就代表该决策树是经过修剪的;minNumObj表示每个叶节点所含实例的最少数量

--(6.0)表示该叶子节点包含的实例数量,数字大于一个的时候(5.0/1.0)代表5个正确实例,1个错误实例

->左下角result list展示了历史结果,右击某个,选择visualize就可以可视化该决策树

也可以右击后点击more,可以查看更多的细节用法

->右击,可以选择fit the screen调整图片大小

J48:有C4.5发展而来

1.5

监督过滤在过滤的时候会使用类别值

一般使用无监督过滤,又分为属性无监督过滤器和实例无监督过滤器

点击choose可以更改一些参数

1)我们现在要删除某个属性来探究对分类的影响,所以我们选择属性无监督过滤器

选择invertSelection为TRUE表示剔除除了第三个属性humidity(即左边一栏No-Name)之外的其他所有属性

或者

勾选No.3,然后点下面出现的remove

2)若要filter属性3humidity中的high(包含7个实例),保留normal(也包含7个实例),要选择filter~UNsupervise~instance~removewithvalues

备注1:

Windows:

https://support.microsoft.com/zh-cn/help/2669244/windows-cannot-access-the-specified-device-path-or-file-error-when-you

linux:

猜你喜欢

转载自www.cnblogs.com/rosyYY/p/10334421.html