UIPath入门系列十之PDF文档操作

其他 2018-08-04 21:30:06 阅读次数: 0

今天讲解的是PDF数据提取与自动化(PDF Data Extraction and Automation)

一、安装PDF插件

二、准备PDF文档 (例1-4 Note.pdf, 例5 Invoice.pdf )

三、识别PDF所有文字和图像

1. 识别PDF文字: Read PDF txt

2. 识别PDF图像及文字: Read PDF with OCR 和Screen Scraping

3. 识别多个PDF中相同的单个字符 (Get Text 和Anchor Base)

例1：识别PDF文字

1. 新建一个sequence

2. 添加一个Read PDF txt的方法

Range是指扫描的页数，跟word文档打印的Range是一样的功能。例如："All", "3-7", ”1”

3. 添加一个write txt file输出方法和message box屏幕输出方法

4. 运行结果如下：图片并未识别

例2：识别PDF图像和文字方法一

1. 添加Read PDF with OCR

2.运行结果如下：图片和文字均可识别

Tips：OCR识别的准确度会随着PDF图像的清晰度而降低，尽量避免使用OCR识别方法。

例3：识别PDF图像和文字方法二

1. 打开PDF文件，点击Screen Scraping

2. 保存录制结果，添加message box方法，接收 “MicrosoftedgeExeMicro” 变量

3. 运行结果如下

例4：识别多个Notes.pdf中相同的 ”IMPORTANT READ:”

1. 打开Notes.pdf，加入getText方法

2. 添加message box方法

3. 运行结果如下

4. 去掉title (可匹配多个PDF文档) 和 text (用index来代替字符串)

5. 接着打开Note2.pdf文档，点击运行按钮，测试结果仍然是 ”IMPORTANT READ:”，Selector选择器的情况如下

例5：使用Anchor Base锚点测试多个Invoice文件

1.打开Invoice1.pdf文件，添加一个Anchor Base，锚点里有两个参数，一是找到需要测试的对象名称，二是得到要测试对象的值

2. find element方法(或find image方法 )中的selectors修改如下

3. get text方法中的selectors修改如下

4. 分别测试Invoice1.pdf和Invoice2.pdf文件，测试结果请自行验证

Tips：若使用find image方法，先将PDF设置为实际大小(我使用find image方法测试不成功)

扩展：后续会推出基于图像的自动化博客(image-based automation)

猜你喜欢

转载自www.cnblogs.com/wendyzheng/p/9419874.html

UIPath入门系列十之PDF文档操作

UIPath入门系列十一之邮件操作

UIPath入门系列三之操作Excel表格

UIPath入门系列七之SAP录制

UIPath入门系列二之判断和循环语句

UIPath入门系列六之UI自动化进阶

UiPath之文件操作

UiPath之Word转换为PDF

RPA系列之(二)-UIPath学习目录

Java操作PDF之iText超入门

Java操作PDF之iText详细入门

【UiPath Studio 中文文档 2019】02 UiPath 入门 - 用户界面介绍

【UiPath Studio 中文文档 2019】03 UiPath 入门 - 项目模板

python之PyPDF2:操作PDF文档示例详解

MongoDB入门---文档操作之增删改

Java入门系列之集合Hashtable入门（十）

UiPath学习文档

UIPath中级系列一之读取MySQL记录集

Python自动化办公系列之Python操作PDF

使用Java操作PDF文档

【PDFBox】PDFBox操作PDF文档之创建PDF文档、加载PDF文档、添加空白页面、删除页面、获取总页数、添加文本内容、PDFBox坐标系

Wireshark入门与进阶系列十之追踪文件分析

简单易懂的讲解深度学习（入门系列之十）

转 Java操作PDF之iText详细入门

MongoDB入门---文档查询操作之条件查询&and查询&or查询

【Java----工具类】【PDF】Java操作PDF之iText超入门

Itext 使用入门之创建pdf 文档附中文解决方案

UIPATH之项目类型

UiPath 之 Excel and DataTables

ChatGPT从入门到精通（附PDF文档）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)