内容解析工具:TIKA

一、TIKA是什么

        它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。

二、TIKA的作用

       1.能识别文档类型、编码、语言、其他属性

       2.抽取文档内容

三、获取TIKA

       1.得到TIKA:http://tika.apache.org/download.html

                             要是不想不想重新打包项目,可以直接下载:tika-app-1.3.jar



 

       2.得到MAVEN:http://maven.apache.org/download.cgi

      

      3.设置JAVA_HOME变量

    

      4.用mven来编译项目了。

         下面用的是我的解压路径。在tika的目录中打开cmd,运行maven

 

 最后会在每个项目中生成target目录,里面有jar文件



 

 四、TIKA的简单用法

Tika tika=new Tika();
		//System.out.println(tika.parseToString(new URL("http://www.taobao.com")));
//		System.out.println(tika.parseToString(new File("TikaSample.class")));
		String[] tt=new String[]{"E:\\lucene\\test_tika\\1.class",
				                  "E:\\lucene\\test_tika\\2.txt",
				                  "E:\\lucene\\test_tika\\1.docx",
				                  "E:\\lucene\\test_tika\\1.xls",
				                  "E:\\lucene\\test_tika\\1.pdf",
				                  "E:\\lucene\\test_tika\\1.mp3",
				                  "E:\\lucene\\test_tika\\死神.rmvb"};
		 for (String file : tt) {  
			      System.out.println(file);
			      System.out.println(tika.detect(new File(file))); 
			      String text = tika.parseToString(new File(file));  
			      System.out.print(text); 
	}

 部分效果图:



 

猜你喜欢

转载自xiaozhou09.iteye.com/blog/1885221