工程化机器学习数据挖掘系列——How to weka,weka环境安装步骤,weka编译步骤,weka运行用例

安装必须的编译程序,源码包,和编译环境。

1,配置合适的java版本,并将jre java命令的目录放入path环境变量中,java可以通过apt等安装,以下方法并不一定适合你。

java版本1.6.0_18或1.6.0_13(1.4.2编译不过)java通过自带升级包升级的
java官方网站:http://www.java.com/en/download/manual.jsp http://java.sun.com/javaee/downloads/index.jsp
linux java 1.6下载地址:http://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_SMI-Site/en_US/-/USD/VerifyItem-Start/java_ee_sdk-6u1-unix.sh?BundledLineItemUUID=9bWJ_hCuwjkAAAEp.lsSMvP6&OrderID=YDOJ_hCur2MAAAEp6lsSMvP6&ProductID=uWOJ_hCy5a4AAAEpeiFudDgF&FileName=/java_ee_sdk-6u1-unix.sh

2,weka包

weka官方网站:http://www.cs.waikato.ac.nz/ml/weka/
最新的3.7.1的weka包下载地址,linux版本:http://prdownloads.sourceforge.net/weka/weka-3-7-1.zip
unzip *.zip

cd weka-3-7-1

mkdir weka-src

cp weka-src.jar ./weka-src

jar zvf weka-src.jar

3,weka包的编译环境

ant官方网站:http://ant.apache.org
最新的1.8.1的ant包下载地址:http://labs.renren.com/apache-mirror/ant/binaries/apache-ant-1.8.1-bin.tar.gz
tar zxvpf *.tar.gz

libsvm官方网站:http://www.csie.ntu.edu.tw/~cjlin/libsvm/
最新2.91的libsvm下载地址:http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+tar.gz
tar zxvpf *.tar.gz

4,文件布局。

把打包文件解压后的文件夹都统一都放在/data/dm/ 目录下

配置ant可以使用
export ANT_HOME=/data/dm/apache-ant-1.8.1
export PATH=$ANT_HOME/bin:$PATH

5,weka的实战运行。

cd /data/dm/weka-3-7-1/weka-src/

ant  //开始编译,编译成功会出现BUILD SUCCESSFUL字样

//这里是redhat 2.6.9 的内核,java能调到的最大使用内存,2690M。

java -Xmx2690m -cp ./build/classes/ weka.classifiers.trees.J48 -t ./data/weather.arff -T ./data/weather.arff

//此时会出现以下结果:

J48 pruned tree
------------------

outlook = sunny
|   humidity <= 75: yes (2.0)
|   humidity > 75: no (3.0)
outlook = overcast: yes (4.0)
outlook = rainy
|   windy = TRUE: no (2.0)
|   windy = FALSE: yes (3.0)

Number of Leaves  :     5

Size of the tree :      8


Time taken to build model: 0.08 seconds
Time taken to test model on training data: 0 seconds

=== Error on training data ===

Correctly Classified Instances          14              100      %
Incorrectly Classified Instances         0                0      %
Kappa statistic                          1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Coverage of cases (0.95 level)         100      %
Mean rel. region size (0.95 level)      50      %
Total Number of Instances               14    


=== Confusion Matrix ===

 a b   <-- classified as
 9 0 | a = yes
 0 5 | b = no


=== Error on test data ===

Correctly Classified Instances          14              100      %
Incorrectly Classified Instances         0                0      %
Kappa statistic                          1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Coverage of cases (0.95 level)         100      %
Mean rel. region size (0.95 level)      50      %
Total Number of Instances               14    


=== Confusion Matrix ===

 a b   <-- classified as
 9 0 | a = yes
 0 5 | b = no

//此为第一步,weka环境的建立和运行,后面需要选择一个算法和修改代码来生成一个在线判别类,也就是传统意义上的分类库。

author:http://hi.baidu.com/jrckkyy

author:http://blog.csdn.net/jrckkyy

猜你喜欢

转载自blog.csdn.net/jrckkyy/article/details/5846230