TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages阅读笔记

#一个"#"号后面不敢打空格的开头:
论文地址:TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages
大佬的作品需要被膜拜,所以本文目录就是原文的目录,每个目录下,总结了原文的内容。内容大体上是英文论文的翻译,但并不过分追求翻译的准确,而是想要探究行文的思路。所以,每个目录下,一段翻译,一段笔记;一段翻译,一段笔记…
本文的最后才是我自己的总结。

0. abstract

翻译:TextTiling是一共用于话题分割的工具。子话题之间的转移主要在于前后句子中词性的共现与分布。算法实现完整,在12篇文章上表现不错,对于其它NLP任务:信息检索、摘要,很有帮助。
笔记:1. 什么是TextTiling 2.识别子话题转移的关键 3. 该算法的性能与作用

1. Introduction

翻译:之前篇章处理的工作都只分析子句之间、句子之间的关系,它们对指代消解、对话生成很有帮助。但是,重要的篇章信息也出现段落之间。本文基于子话题转移提出了一种段落级别的模型和一个将多文章分成多个段落的算法。
笔记:1. 前人工作的局限性 2. 提出改进的方向 3. 交代本文的贡献

翻译: 在本工作中,文章是一个子话题讨论的序列。比如:
在这里插入图片描述
笔记:1. 介绍研究的对象——expository text 2. 举例

翻译: 科技文章中标题和子标题是很常见的,但是说明文中很少有结构化的界限,所以子话题分割是很有用的。
笔记: 1. 借着之前说明文的引出,进一步抛出一个问题,进一步交代本文讨论方向的重要性

翻译: 子话题只出现在一个主标题,或者多个主标题之间。
笔记: 看不懂

翻译: Texttiling利用了词性共现、分布的模式。算法有三个部分:1. 将文章分成一个一个句子单元 2. 为每一个句子单元算一个分数 3. 根据句子单元之间的"against scores"所得到的图,来得到子话题的边界。 计算分数的方法有: 1. blocks 2. vocabulay introductions 3. chains 。这些计算方法都只利用了文本内部的词性共线、分布模式。
笔记: 1. Texttiling的核心 2. 算法的三个步骤 3. 算法中计算分数的几个方法

翻译: 段落级别的结构建造的最终目的并不只是识别出一个一个的子话题单元,而是还要去识别话题的类别。本文只讨论前者。
笔记: 1. 交代话题分割其实有两个工作: 1) 识别子话题单元 2)识别子话题种类

翻译: section2论证了话题分割的需求和应用场景 section3具体描述什么是"subtopic",并描述了本文提出的模型背后的那些模型 section4介绍了使用词性共现信息来检测子话题转移的总体框架,并描述了"经验主义篇章分析"的其它相关工作 section5具体介绍texttiling section6介绍模型性能 section7总结工作,展望未来
笔记: 每一篇的introduction最后都有这种就好了,可能这是长文的关系?

2. Why Multi-paragraph Units?

翻译: 学校里我们被教的是,一个段落需要是内部连贯,外部独立的一个单元。实际生活中,很多段落标记只是用来改变文章外观,帮助阅读。例子就是报纸。 另外,不同的文章类型,它的段落标记的作用也不同。
笔记: 1. 联系生活,交代背景

翻译: 大多数话题分割的工作粒度比本文细。texttiling面向的是那种,没有很多结构化标记的说明文,因为说明文对于信息检索和摘要很有帮助。典型的说明文例子就是:一篇5页的科技论文或者20页的环境影响报告。
笔记: 1.其它话题分割的工作特点 2.texttling针对的说明文的更详细一点的介绍

翻译:texttiling可用于超文本展示和信息抽取。另外还有文本摘要,之前文本摘要的工作都是只利用了句子在文本中的相对位置然后直接抽取句子,而并没有用到文本中的子话题结构。也有人发现了子话题结构的必要性,但没有给出算法。
笔记: 1.hypertext display 2. IR 3. text summarization 但是我并不知道这三个是什么东东

翻译: 另外的领域就是自动文本生成。有人基于"Basic Blocks"的概念:1. 段落一定包含一个如person或者是location的受关注点 2. 段落是有关于那个对象的概念集合。他们强调了根据文章的局部信息构建高层次的结构,然后组合必要的相关性信息,是细粒度的。
笔记: 搞不懂什么是细粒度还是粗粒度

2.1 Online Text Display and Hypertext

略,回头再来看。

2.2 Information Retrieval

略,回头再来看。

3. Coarse-Grained Subtopic Structure

3.1 What is Subtopic Structure?

说明: 这些对我来说都不是重点,所以很多段并到一起翻译了。
翻译: 如果把它解释"topic"解释成;一个统一的原则,使得一段篇章关于something,下一段关于something else,那就能解释得很明白。但如果不考虑上下文之间,单单一个"topic“,却很难解释。/如果我们考虑"topic shift",那我们的问题就转移到了如果在篇章中识别话题转移的形式化标志。/数据表明,topic之间的转移有的时候是很明显的,有的时候却是少明显的。/Texttling也支持上述立场,那么现在的问题就是如何检测子话题的转移了。有人认为应该具体考虑两个标记:1. 状语从句 2. 某种韵律标记。本文表示,词性的共现模式也是一个很好的切入点。
笔记: 短的论文中肯定不会讲这种啊。。。不过还是挺有价值的。

3.2 Relationship to Segmentation in Hierarchical Discourse Models

翻译: 之前在经验主义篇章处理上的工作都采用了层次化篇章模型。最重要的是"attentional/intentional structure"和"Rhetorical Structure Theory"这两个。它们主要研究的是短语单元和子句单元,它们分析的对象都是很短的文本。细粒度的话题分割对于篇章分析:对话生成、话轮转换是有用的。层次化模型是关于"utterance-level"(?)的分割。最新的进展就是使用机器学习的方法+一些精心选择的篇章线索,来实现自动分割。
笔记: 1. 之前的层次化模型是细粒度的 2. 细粒度分割的左右 3. 层次化模型是干嘛的 4. 最新的进展 。 然后就要引出texttiling了

翻译: texttiling识别主要的子话题边界,是线性的,而不是层次化的。在组合段落级别,而非"utterances"级别的单元时,更低复杂度的算法需要被发明。texttiling只考虑词性分布信息,来代替韵律线索(音高、停顿和持续时间)和篇章标记(oh, well,
ok, however)等等。这种方法是很好的,因为1. 计算量少 2. 直接利用篇章中的上述线索,会有很大的误导性。
笔记: 1. 阐明与层次化模型的不同 2. 阐明只考虑词性分布信息的作用。

4. Detecting Subtopic Change via Lexical Co-occurrence Patterns

翻译: TextTiling认为在一个给定子话题的文本中,一系列特定词性的词会被使用,当话题改变,词汇的很大比例会改变。算法通过决定在哪里,那些主题性的成分最大程度地改变,来识别边界。然而,其他研究者研究的是:setting(环境)、time(时间)、人物(characters)等等主题因素。相反,我尝试去发现那些,一个相对来说更大的活动主题集合同时改变的地方,而不是只考虑主题因素们的类型。这是因为,在说明文中,主题比环境、时间、任务更有利于构建篇章结构。例如:…
笔记: 1. 一个主流的思想 2. 其它研究者基于这个思想的方法 3. 我是怎么利用这个思想的 4,为什么 终于开始走入正题。

翻译: 下图展示了基于词性共现的子话题结构流动。空白就是不出现,大致有三类词: 1. 所有句子中都频繁出现的(life\moon),它们通常象征大的主题 2. 不是频繁出现,但是是均匀分布的(form\scientist),它们没用 3. 剩下的,它们通常频繁出现在连续的句子中,它们有用。 现在的问题就是:怎么确定这些单词组成的团,它从哪里开始、到哪里结束。
在这里插入图片描述

笔记: 1. 通篇频繁出现代表大的主题;通篇均匀不频繁出现没有;聚集性的出现代表子话题 2. 如何确定话题分割点 哇,开始有意思起来了。

翻译: 对上图的观察表明简单的词性共现关系可以被用于决定子话题的边界。但是,仅仅考虑重复出现的词是不够的。甚至说,把一些词组合成链,也是不够的,因为一个分割中常常有多个活动主题。举例:37-51的句子就是跨主题的(move, continent, shoreline, time, species, and life并不都是同一主题),而对于句子57-71, space, star, binary,
trinary, astronomer, orbit这些单词却又是语义相似度很高的,总之没法比。
笔记: 1.仅仅看单词的分布,或者词组的分布是不够的,因为一个分割会涉及很多个主题。

翻译: 由于表明子话题结构的单词并不一定有概念上的联系,本文考虑多个连续主题的共现。之前的相关工作是考虑句子之间的词重叠,词重叠可以形成一种结构,如果结构是全连接图,那表明那个话题讨论得火热呢,如果是细长的连接链,那表明应该是话题分割点。核心思想是:一个单词连接模式的函数,来得到句子的结构。
笔记: 啊呀呀 感觉时间要来不及了,我直接看它的模型吧。本来此目录下还有四段的。

4.1 Comparing Adjacent Blocks of Text

按下图所示,我们定义一个2大小的窗口,下图展示了 句子2和句子3;句子4和句子5;句子6和句子7之间的gap的lexical score。按文中说的: 这个blocks就像一个滑动窗口划过这些句子,一次滑过一个句子,那么如果窗口大小为k,每一个句子会出现在2*k个gap分数的计算中??(这我不懂)。话说回来,句子2和句子3中的gap的score其实是两个向量的内积:向量1=[2,1,2,1,1],向量2=[1,1,1,1,2],所以答案=2+1+2+1+2=8
在这里插入图片描述
下面的图记录了我的理解与疑惑:
在这里插入图片描述

4.2 Vocabulary Introductions

4.3 Lexical Chains

4.4 Vector Space Similarity Comparisons

4.5 Other Related Approaches

5. The TextTiling Algorithm

5.1 Tokenization

5.2 Determining Scores

5.2.1 Blocks

5.2.2 Vocabulary Introduction

5.3 Boundary Identification

5.4 Smoothing the Plot

5.5 Determining the Number of Boundaries

6. Evaluation

6.1 Reader Judgments

6.2 Parameter Settings

6.3 Results: Qualitative Analysis

6.4 Results: Quantitative Analysis

6.5 Detecting Breaks between Consecutive Documents

7. Summary and Future Work

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/110953045
今日推荐