1.1 introduction
WEKA:数据挖掘工具
https://www.youtube.com/watch?v=Exe4Dc8FmiM
1.2 exploring the explorer
Download
->https://www.cs.waikato.ac.nz/ml/weka/downloading.html
选择Windows或linux,我选择Windows
->打开cmd,输入java -version,若不报错则说明已有java vm,那么就下载
Click here to download a self-extracting executable for 64-bit Windows without a Java VM
(weka-3-8-3-x64.exe; 51 MB)
->一路点下一步,一定要记住默认地址,最后一步不勾选立即启动
->下载完成后,进入上述默认地址文件夹,右击设置桌面快捷方式,并且复制data文件夹放到自己熟悉的地方
->打开软件 备注1
explore是主要用到的界面
experimenter界面是针对基于不同数据集的不同机器学习方法的大规模性能比较
knowledgeFlow是图形界面、命令行页面
->点击explore
上面有五个模块:预处理、分类、聚类、关联规则associate、属性选择select attribution、可视化界面
->
操作:Open file ~ 选择上面的data文件夹中的数据,观察属性值的图表
Edit .. ~ 改变数据,save~保存改后的数据
举例 :weather data
数据:14天,4个天气属性,是否play
任务:通过属性判断是否play
1.3 exploring datasets
观察统计数据,检查数据是否存在问题,例如身高是否出现了负数这样的需要剔除的数据
Glass data:
Glass.arff文件,观察arff文件的格式:real就是numerical数据
1.4 building a classifier
选择explorer ->classify->trees ->J48,它是一个决策树分类器 ->start
迅速显示结果:不仅包含数据本身分析,还展示了树结构、结果分析例如混淆矩阵、TP、recall、precision。。
->点击左上角choose,出现各种可以调节的参数,例如unpruned设置为off就代表该决策树是经过修剪的;minNumObj表示每个叶节点所含实例的最少数量
--(6.0)表示该叶子节点包含的实例数量,数字大于一个的时候(5.0/1.0)代表5个正确实例,1个错误实例
->左下角result list展示了历史结果,右击某个,选择visualize就可以可视化该决策树
也可以右击后点击more,可以查看更多的细节用法
->右击,可以选择fit the screen调整图片大小
J48:有C4.5发展而来
1.5
监督过滤在过滤的时候会使用类别值
一般使用无监督过滤,又分为属性无监督过滤器和实例无监督过滤器
点击choose可以更改一些参数
1)我们现在要删除某个属性来探究对分类的影响,所以我们选择属性无监督过滤器
选择invertSelection为TRUE表示剔除除了第三个属性humidity(即左边一栏No-Name)之外的其他所有属性
或者
勾选No.3,然后点下面出现的remove
2)若要filter属性3humidity中的high(包含7个实例),保留normal(也包含7个实例),要选择filter~UNsupervise~instance~removewithvalues
备注1:
Windows:
linux: