[论文阅读笔记60]Neuralizing Regular Expressions for Slot Filling

题目:Neuralizing Regular Expressions for Slot Filling(神经正则表达实体抽取)

​ 上海科技大学,屠可伟团队

摘要:

解决Slot Filling任务,通过把符号规则转换神经网络相集成的方法进行研究。整体方案:

image-20211105143430145

预备知识:

正则表达(略)

FST(Fifinite State Transducer,有限状态转换器)

查阅相关资料【6】:

有限自动机(Finite Automata, FA) 是由一组有限的状态和状态转移的集合组成,其每一个转移都至少有一个标签;

最基本的FA是有限状态接收器(Finite State Acceptor,FSA)。对于给定的输入序列,FSA返回“接收”或者“不接收”两种状态;

有限状态转移器(Finite State Transducers, FST) 是FSA的扩展,其每一次状态转移时都有一个输出标签,叫做输入输出标签对。

形式化定义为6元组:

image-20211105151148945

FST的例子:

image-20211105145219922

​ 这是一个FST的例子,q0是唯一的起始状态,q3是唯一的最终状态。w_*是输入单词的通配符,l_*是输出标签的通配符。每个弧表示一个可能的转移,每个弧上方的斜线分隔输入(左)和输出(右)。

对于文本“flflights from New York to Dallas”,在FST中状态序列为 [q0*, q0, q1, q2, q2, q3, q*3] ;输出序列为[l** , l** , B-fr.city, I-fr.city, l** , l** ].

采用BIO模式来标注的。

具体内容:

正则表达式对Slot Filling任务:

image-20211105154438477

把RE转成FST:

image-20211105154515976

为了提高解决效率问题,转为i-FST:

image-20211105154728404

矩阵的优化了,3阶分解成2阶:

image-20211105154922905

再进一步优化:

image-20211105155020810

结果:

image-20211105155130442

总结:

论文的整个过程还是比较清晰的,采用正则表达式的方法切入,把它转成FST,然后把FST优化后转化为RNN的思路。

从结果可以看出来,效果还是不错的。对于zero-shot,low-resource,rich-resource都表现出不错的效果。

对于基础理论,目前还是不求甚解,先使用去解决一些问题再说,上两周写了两周正则,估计是可以用来试一试了(本次的确带有需求来阅读论文了,昨天在BAAI听到屠老师的分享,就很有进一步学习的冲动)。

相关参考:

【1】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/

【2】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21.pdf

【3】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21-poster.pdf

【4】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21-slides.pdf

【5】https://github.com/jeffchy/RE2NN-SEQ

【6】https://blog.csdn.net/vivian_ll/article/details/95049652

猜你喜欢

转载自blog.csdn.net/ld326/article/details/121265698