如何从word、excel、pdf等文件中提取文字(Tika)

Tika-内容分析工具包

官方网站:https://tika.apache.org/

在maven仓库下载最新版依赖 https://mvnrepository.com/artifact/org.apache.tika/tika-parsers

懒得去的同学,提供一个笔者正在使用的依赖

    <!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->         
    <dependency>
	  <groupId>org.apache.tika</groupId>
	  <artifactId>tika-parsers</artifactId>
	  <version>1.18</version>
    </dependency>

猜你喜欢

转载自blog.csdn.net/chenhao_c_h/article/details/85049919
今日推荐