Weka项目中的ARFF文件结构解析 - 代码天地

Weka项目中的ARFF文件结构解析

其他 2018-06-18 23:25:26 阅读次数: 3

Weka作为数据挖掘开源项目中的经典，很多算法和数据的组织结构是值得学习的。Weka里面大量使用了一种叫做arff(Attribute-Relation File Format )的数据文件结构。这种arff文件内部结构很简单，主要是测试算法使用的轻量级的数据文件结构。OpenMiner继承Weka的风格，也打算支持arff文件格式，并且作为前期的挖掘算法测试数据来源。下面是我从网上找到的关于这种文件格式的网址http://www.cs.waikato.ac.nz/~ml/weka/arff.html

ARFF文件格式很简单，从Weka里面都可以找到一些它的例子：

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

不用多说，直接看，大致都能明白这个数据文件的意思了。

在读取arff文件的时候，有点是需要注意到的。在Java中，InputStream,DataInputStream这些类都不支持mark和reset，也就是说不能倒回去再读。而ByteArrayInputStream支持mark和reset，但是arff文件作为一个数据源文件，可能包含几十MB，甚至是几百MB。。。的数据，如果全部先读进内存，再从内存中解析，恐怕并不可行。还好Java中实现了BufferedInputStream，它可以预读8192个字节的缓冲，内存中的读完后，再从输入流中继续读8192个字节的缓冲，并且支持mark和reset，这就是我在Java里面自己实现解析arff时候的主要技术问题所在。至于字符串的解析就很简单了。

猜你喜欢

转载自blog.csdn.net/u012117299/article/details/13700911

Weka项目中的ARFF文件结构解析

weka学习[1]_Eclipse中读取arff文件

【机器学习】Weka数据集文件形式.arff

问题解决：在Weka中如何将CSV格式文件转换为ARFF文件

IDEA 无法显示项目中的文件结构

Weka--ARFF数据格式介绍和转换

如何转换成weka可识别的ARFF格式

Mahout Creating Vectors from Weka's ARFF Format

完美简单永久解决WEKA中导入arrf文件（包含中文字符）出现“unable to determine structure as arff...”错误

react项目文件结构解析

Android项目文件结构解析

7、maven项目中pom.xml文件解析

Android开发项目文件结构解析

WEKA将英文文本数据集转换成ARFF格式

项目中的.gitignore文件

项目中的文件概述

项目中.gitignore文件

Pandas直接读取arff格式的文件

IDEA无法完整显示项目文件结构，Git文件后无法在项目中显示

【IntelliJ IDEA】idea导入项目只显示项目中的文件，不显示项目结构

项目中DAO的结构实现

web前端新手学习总结（六）:eclipse项目中jsp文件常用代码解析

ssm框架中，web项目中applicationContext.xml及相关配置文件解析

springBoot项目中yml文件${REDIS_HOST:127.0.0.1}写法解析

删除项目中的.svn文件

项目中获取文件路径

Java 项目中的.properties文件

Java项目中读写文件

Java获取项目中的文件

QT项目中的SetStyleSheet文件

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)