Java使用POI解析Word文本【.doc和.docx】 - 代码天地

Java使用POI解析Word文本【.doc和.docx】

其他 2020-06-29 16:07:41 阅读次数: 0

本文的解析文本，是指：

提取所有文字信息
将文本拆分成一行一行的文字（字符串）
去除空行

需要的jar包

在这里插入图片描述

程序

注意事项

doc格式和docx格式的解析方法不一样
wordText（也就是整个word文档的文字字符串）按行拆分时String[] lineArr = wordText.split("\r\n|\n\n|\n");，你看我这里面写了\r\n、\n\n、\n三种拆分形式，因为我拆分的时候，发现doc个换行字符是\r\n，docx的普通换行字符是\n\n，而docx中从表格里解析出来的文字的换行字符是\n。所以可能换行字符会不一样，各位自己做的时候可以debug看换行字符是什么。

/**
 * 从word文件中解析出文字数据
 * @param file 要解析的word文件
 * @return 文档中的行数据数组
 */
private String[] parseAllTextFromWordFile(File file) {
    //获取word文档中的全部文字数据
    String wordText = "";
    String fileName = file.getName();
    String suffix = fileName.substring(fileName.lastIndexOf('.'));//文件后缀（格式）
    try {//.doc和.docx的word获取方式不一样
        InputStream is = new FileInputStream(file);
        switch (suffix) {
            case ".doc":
                WordExtractor wordExtractor = new WordExtractor(is);
                wordText = wordExtractor.getText();
                is.close();
                break;
            case ".docx":
                OPCPackage opcPackage = POIXMLDocument.openPackage(file.getAbsolutePath());
                POIXMLTextExtractor poixmlTextExtractor = new XWPFWordExtractor(opcPackage);
                wordText = poixmlTextExtractor.getText();
                break;
            default:
                return null;
        }
    } catch (Exception e) {
        e.printStackTrace();
    }

    //将整个文档数据字符串拆分成行数据,删除两头空格,并删除空行
    String[] lineArr = wordText.split("\r\n|\n\n|\n");
    List<String> lineList = new ArrayList<>();
    for (String line : lineArr) {
        if (StringUtils.isNotEmpty(line.trim())) {
            lineList.add(line.trim());
        }
    }
    String[] lines = new String[lineList.size()];
    lineList.toArray(lines);

    return lines;
}

猜你喜欢

转载自blog.csdn.net/qq_43222869/article/details/106835255

Java使用POI解析Word文本【.doc和.docx】

使用POI读写Word文件（兼容doc与docx版本）

Java使用poi读取doc/docx文档内容

java 计算word总页数（.doc/.docx）

合并.doc和docx格式的Word文件

Poi读取word(doc)文档的文本或图片

使用poi根据模版生成word文档并转换成PDF文件(可处理doc文件与docx文件版)

使用POI读写word docx文件

java Springboot word转换PDF, 支持doc和docx超简单 , 支持水印

POI读取doc、docx文件

【poi】java使用poi对docx文档进行操作——纯文本篇

使用POI转换word doc文件

使用POI读写Word doc文件

Word处理控件Aspose.Words功能演示：使用Java 将 Word DOC/DOCX 转换为 PDF

使用word批量将.docx（或者.doc）转成.pdf

如何修复损坏的DOC和DOCX格式Word文件？

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比 Python：读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误

java替换word模板中占位符Docx4j和Poi实现

docx和doc的区别

借助Spire.Doc for Java控件，将 RTF 转换为 Word Doc/Docx

POI读写Word docx文件

poi操作word文档docx

Android实战开发篇读取Word文档的 doc 与 docx 格式文本内容（全网最详细！！！）

html转word 文档 doc docx

android使用Apache POI操作word docx文档 android使用POI操作word docx文档，根据【***】这种标识规则，替换掉docx文档中的内容

使用POI将office（doc/docx/ppt/pptx/xls/xlsx）文件转html格式（附带源码）

使用vba doc转docx

生成doc和docx教程

python处理doc和docx

获取pdf、doc/docx文本数据

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)