Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper

Authors:
Sarah E. Schwarm University of Washington, Seattle, WA
Mari Ostendorf University of Washington, Seattle, WA
Published in: ACL
time:June 25 - 30, 2005
Association for Computational Linguistics Stroudsburg, PA, USA ©2005

数据不公开

2 reading level assessment

最早:公式,syntactic特征(如句长)
之后:概率语言模型(前两个论文),smoothed unigram分类器捕捉词的变化
smoothed unigram分类器的Overall Accuracy and Generalization Ability
UNK:text中unknown的比例
types:per 100-token passage里的type即unique单词的个数
MLF:passage和大语料的相对log平均概率
FK:FK公式
smoothed unigram分类器性能超过了上述semantic difficulty,但是没有捕捉到syntactic information

我们的模型,使用ngram,捕捉both semantic和syntactic信息

补充:
Syntax是语法上的,Sematic是语义上的。
在自然语言范围内举个简单的例子The dog is a man.从syntax上来说,这句话没有错,主谓宾齐全而且各个成分的性和格也没错,但是语义上来说是错的,dog 怎么能是man呢。在不同的领域,syntax 和semantic有着不同的对照,但大致关系和自然语言里是差不多的。
syntactic,也就是句法,指的是语言的结构,简单说就是名词动词形容词等等不同词性的词应该按什么顺序在某一个语言里出现,还有某一种词性的词组可以衍生出什么新 的结构(比如VP->V NP) 。
结构正确的句子不一定有意义(semantic,也就是语义,指的是语言表达的意义)。 一个著名的例子是:“Colorless green ideas sleep furiously“。这个句子句法上完全正确,形容词名词动词副词各就各位,但是一点不make sense,正常生活中人不会明白这个句子要表达什么意思。
比较简单的理解语义和句法的区别的方法是:句法是讲一个东西往哪摆的,语义是研究 摆那以后对句子的interpretation的影响的。

猜你喜欢

转载自www.cnblogs.com/rosyYY/p/10163826.html