Donut：使用 Donut 进行无 OCR 文档理解

企业开发 2023-09-05 17:24:31 阅读次数: 0

由于 PDF 和文档扫描包含大量非结构化数据，因此可视化文档理解 (VDU) 是深度学习和数据科学中备受争议的新兴领域。现代模型，如 LayoutLM、LayoutLMv2 和 LayoutLMV3 使用变压器，并在这项任务上取得了巨大的成就。这些深度学习模型架构是开源的，由 HuggingFace 制作。

与其他型号的区别

这项工作建议在一个步骤中执行这两项不同的工作，而不是采用两阶段方法的其他研究，首先提取文本，然后利用利用文本作为输入和输出所需文档信息的模型。

在这里插入图片描述
由于这种差异，这项工作在速度方面优于以前的工作。

在这里插入图片描述

关于模型架构

在这里插入图片描述

视觉编码器

使用SWIN转换器，输入图像（HxWxC）被转换为补丁，然后转换为嵌入特征（Nxd），其中N是最终特征图的宽度x高度的大小。

作者未指定所提供图像的大小。

这就是我们如何将来自视觉编码器的图像补丁嵌入到上下文中。

文本解码器

对于解码器，作者使用了多语言 BART 架构。由于内存限制，他们只

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132636246

Donut：使用 Donut 进行无 OCR 文档理解

A. Donut Shops(分类模拟)

【叙事型物理解谜游戏】甜甜圈都市Donut County Mac中文版

可视化之donut chart

原生小程序Donut多端开发

Donut：将.NET程序集注入Windows进程

Donut：将.NET程序集注入Windows进程

Donut和MSF以shellcode注入的方式执行任意文件

清华/阿里巴巴开源的周期型——Donut

微信跨平台方案Donut快速上手

Vue-Donut——专用于构建Vue的UI组件库的开发框架

Educational Codeforces Round 90 (Rated for Div. 2) A. Donut Shops（数学）

matplotlib之pyplot模块——饼图（pie()：圆环图（donut）、二层圆环图、三层圆环图）

tesseract-ocr 使用java进行识别

使用腾讯OCR进行文字识别

使用Python进行视频流OCR

【线段树】【扫描线】Petrozavodsk Winter Training Camp 2018 Day 5: Grand Prix of Korea, Sunday, February 4, 2018 Problem A. Donut

使用Tesseract OCR引擎和层次聚集聚类（HAC）对多列数据进行OCR

OCR文档识别功能

文档扫描OCR简介

linux下python使用tesseract-ocr进行图片识别

如何使用OCR文字识别软件进行票证识别

使用Python进行OCR识别图片中的文字

使用 Amazon Rekognition API 进行文本检测和 OCR

使用Microsoft认知服务进行文本检测和 OCR

使用Tesseract和Python进行OCR和语言翻译

使用 SVM 进行手写数据 OCR

OCR技术的简单理解

Oracle RAC—OCR理解

【身份证所有内容识别】Windows 10平台完整安装使用Tesseract OCR进行OCR识别

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)