FreeDom:A Transferable Neural Architecture for Structured Information Extraction on Web Document(解读)

原论文标题:

FreeDom:A Transferable Neural Architecture for Structured Information Extraction on Web Document

FreeDom:一种用于Web文档上结构化信息提取的可传递神经体系结构

引用信息:

Bill Yuchen Lin, Ying Sheng, Nguyen Vo, and Sandeep Tata. 2020. FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Association for Computing Machinery, New York, NY, USA, 1092–1102. DOI:https://doi.org/10.1145/3394486.3403153


研究(解决的)问题:

以前的方法要么为每个目标站点需要少量的示例,

要么依赖于在网站的可视化渲染上构建的精心手工制作的启发式方法。

之前的工作主要集中于使用精心制作的功能[14]来利用视觉模式。这些基于渲染的方法有两个主要缺点:1)代价大,因为需要下载所有外部文件,包括CSS、javascript和图像来渲染页面来计算视觉特性;2)它们需要围绕视觉接近的启发式设计,才能很好地处理这些昂贵的特性。在本文中,我们提出了一种名为新的双级神经结构的FreeDOM,它可以在少数种子网站上进行训练,并很好地推广到看不见的网站,而不需要任何手工工程的视觉特征。

步骤:

第一阶段通过结合文本和标记信息来学习页面中每个DOM节点的表示。

第二阶段使用关系神经网络捕获更长范围的距离和语义相关性。

效果:

通过结合这些阶段,FreeDOM能够在对垂直的少量种子站点进行训练后推广到看不见的站点,

而不需要昂贵的视觉渲染手工制作功能。

实验:

通过在一个具有8个不同垂直领域的公共数据集上的实验,

我们表明FreeDOM平均比之前的技术水平好了近3.7F1分,

而不需要渲染页面上的功能或昂贵的手工制作的功能。

关键词:

structured data extraction(结构化数据提取)

web information extraction(网络信息提取)

猜你喜欢

转载自blog.csdn.net/qq_38767359/article/details/119785429