Expresiones regulares de uso común para coincidir con la colocación de oraciones en inglés de Antconc

Introducción: ¿No puedes escribir oraciones estándar en inglés? ¿Es demasiado problemático buscar en Google uno por uno? Use Antconc rápidamente, la importación de corpus solo requiere unos pocos pasos para ayudarlo a analizar la frecuencia de palabras y encontrar colocaciones comunes.

Uno, caracteres especiales regulares de uso común

personaje descripción
^ Coincide con el comienzo de la cadena de entrada.
PS Coincide con la posición final de la cadena de entrada.
* Coincide con la subexpresión anterior 零次o 多次. Por ejemplo, zo*coincide zbien zoo. *Es equivalente a {0,}.
+ Coincide con la subexpresión anterior 一次o 多次. Por ejemplo, ' zo+' puede coincidir con " zo" y " zoo", pero no con " z". +Es equivalente a {1,}.
? Coincide con la subexpresión anterior 零次o 一次. Por ejemplo, " do(es)?" Puede coincidir con " do" o " does". ?Es equivalente a {0,1}.
. Coincide con cualquier carácter individual excepto el carácter de nueva línea \ n.
() Marque el comienzo y el final de una subexpresión .
[] Expresión de corchetes.
{} Marque el calificador . Si wor{2}puede coincidir wordspero no coincidirword
x|y Coincide con x o y. Por ejemplo, 'z | food' puede coincidir con "z" o "food". '(z | f) ood' coincide con "zood" o "comida".
[xyz] Juego de caracteres, equivalente ax | y | z
[^ xyz] Juego de caracteres negativos. Coincide con cualquier carácter que no esté incluido. Por ejemplo, '[^ abc]' puede coincidir con 'p', 'l', 'i' y'n 'en "plano".
[Arizona] Rango de caracteres.
[^ az] La gama de caracteres negativos. Por ejemplo, '[^ az]' puede coincidir con cualquier carácter que no esté en el rango de 'a' a 'z'.

Dos metacaracteres regulares

personaje descripción
\s Coincide con cualquier carácter en blanco.
\S Coincide con cualquier carácter en blanco.
\ w Haga coincidir letras, números y guiones bajos. Equivalente a '[A-Za-z0-9_]'.
\ W Haga coincidir letras, números y guiones bajos. Equivalente a '[^ A-Za-z0-9_]'.
\B Coincide con el límite de una palabra. Por ejemplo, ' er\b' puede coincidir con never' er' en " verb" pero no puede coincidir con ' er' en " " .
\B Haga coincidir los límites de las palabras. 'er \ B' puede coincidir con el'er 'en "verbo" pero no con el'er' en "nunca".
\D Coincide con un carácter de dígito. Equivalente a [^ 0-9].
\D Coincide con un carácter de dígito. Equivalente a [^ 0-9].

En tercer lugar, la recopilación de partes comunes del discurso en inglés.

Etiqueta de parte del discurso Nombre completo en inglés Explicación china Ejemplo
ANUNCIO Adverbios adverbio Incluyendo adverbios modales, adverbios de frecuencia, adverbios de grado, adverbios conjuntivos, etc.
CC Conjunción de coordinación Coordinar conjunciones Y, y, o, o
CS Conj subordinado Conjunción subordinada Si, si, como
DT Determinante Calificadores,冠词 the, a, an, this, every, each, any, your, their, which 等)
EX Existencia allí Vocabulario existencial allí
IN Preposiciones y
conjunciones subordinantes
介词Y conjunciones subordinadas en, aproximadamente, a
JJ Modificador de sustantivo distinto de los anuncios 其他名词形容词 共同/JJ的/DEG目的/NN
他/PN是/VC男//JJ的/DEG
NN Common nouns 普通名词(单数或复数) 桌子(一般正则用_N\w*)
NR Proper nouns 专有名词 天安门
VB Verbs (base form) 动词原形
VH 动词"有" 的词类标记 have
VV verbs 其他动词 情态动词,提升谓词(如“can”),控制动词(如“要”、“想”),
行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”
VA Predicative adjective 谓词形容词 太阳红彤彤/VA
MD Modal Verbs 情态动词 can,may
VC Copula 系动词 am.is.are,was
RB Adverbs 副词
TO to 单词to
RP Particles 小品词 along,away,by,down,in,off,on,out,over

以下根据Antconc软件以及词性标注数据,做了一个词频如下图

然后导出到Excel中进行清洗,得到如下图,并进行重点标注,方便正对性记忆。

四、使用案例

首先,我们使用已词性标记英文语料,标记形式如下图。可见词性标记先将文本内容分词(常用HMM隐马模型进行词性标注任务),然后在每个词后面加入_<词性缩写>来达到标记效果,如The_DT表示标记为冠词的单词The

在了解了具体词性标注文本格式后,我们在匹配想要的句式结构时,就可以利用<原词>_<词性缩写>格式特点来写正则表达式。

【句式1】:be动词+冠词/副词(if any)+形容词+名词/介词

【正则表达式】:

\S+_VB\w*\s\S+((_DT)|(_RB\w*))\s\S+_JJ\w*\s\S+((_NN\w*)|(_IN))\s

【部分解释】:

  • \S+意图匹配下划线_前的非空原词字符串+表示非空字符\S1个或个,这样我们就可匹配到_前的一个任意长度单词(字符串),例如该项可匹配到is_VBZ中的is
  • _VB\w*\s匹配词性,但是词性按粗粒度到细粒度划分有很多,比如VB(动词原形)下属有VBZ(第三人称单数动词),VBG(动名词或现在分词),VBP(非第三人称单数动词)。因此,我们在后面加\w*表示可以匹配0或多个字符*采用贪心匹配,选择最长字符作为结果),最后因为词与词之间是空格,因此再加入\s用来匹配一个空字符。例如该项可匹配到is_VBZ中的_VBZ(空格)
  • ((_DT)|(_RB\w*))意图匹配DT冠词或RB副词()中为子表达式,如(_DT)_DT作为一个整体,通过|或关系对冠词或副词进行匹配。例如该项可匹配到also_RB中的_RBa_DT中的_DT
  • 其余原理相似,不再赘述。

【句式1的其他等价写法】:能合并同类项可以少些点。

\S+_VB\w*\s((\S+_DT)|(\S+_RB\w*))\s\S+_JJ\w*\s\S+((_NN\w*)|(_IN))\s
\S+_VB\w*\s((\S+_DT\s\S+)|(\S+_RB\w*\s\S+))_JJ\w*\s\S+((_NN\w*)|(_IN))\s

得到结果如下图

可见有驸马标记,为了简洁好看,我们可以通过全局设置将其隐藏,如下图

最终结果如下图,可见有很多实用的论文书面搭配。

【句式2】:形容词+名词+have(has)+动词过去式+that

【正则表达式】:

\S+_JJ\w*\s\S+_N\w*\s\S+_VH\w*\s\S+_VV\w*\sthat

【部分解释】:

  • VH\w*意图匹配动词及其下属词性,如have,has等。
  • \sthat注意匹配的是(空格)that
  • VV匹配其他动词词性,如shown,found等。

【句式3】:形容词+名词+动词(任意形式)+that

【正则表达式】:

\S+_JJ\w*\s\S+_N\w*\s\S+_V\w*\sthat

【句式4】:…+形容词+classifier(s)+…

【正则表达式】:

\S+_JJ\sclassifiers?

【部分解释】:

  • classifiers?意图匹配classifier后面的字符s可有可无,可匹配到classifier以及classifiers

【句式5】:however/although/nevertheless(固定连词)+带有形容词的从句

【正则表达式】:

((however)|(although)|(nevertheless)).+\S+_JJ\w*\s

【部分解释】:

  • .+匹配如although之后的长度为1及以上非换行符\n字符串。本例中匹配although_IN in_IN many_JJ中的_IN in_IN(空格)

【句式6】:we/study/research/paper+任意词(if any)+动词

【正则表达式】:

((we)|(study)|(research)|(paper))_\S+\s(\S+_\S+\s)?\S+_VV\w*\s

如果想精确性查找This paper+任意词(if any)+动词则可以使用

this_DT\spaper_NN\s(\S+_\S+\s)?\S+_VV\w*\s

【部分解释】:

  • (\S+_\S+\s)?匹配0个或1个任意词<原词>_<词性>(空格),若替换为*则匹配0个或多个

【注】:修改底部KWIC的排序方式,从左到右依次按照ASCII码大小排序,修改后排序方式变化但总记录数不变。

【句式7】:动词+任意词(if any)+question

【正则表达式】:

\S+_VV\w*\s(\S+_\S+\s)?questions?

【部分解释】:

  • (\S+_\S+\s)?匹配0个或1个任意词<原词>_<词性>(空格),若替换为*则匹配0个或多个
  • questions?匹配questionquestions

【句式8】:This paper+be动词+动词被动+as follows

【正则表达式】:

paper_NN\s\S+_VB\w*\s\S+_VV\w*

附录-完整词性表

英文简写 英文全称 中文解释
CC Coordinating Conjunctions 并列连词
CD Cardinal Numbers 基数词
DT Determiners 限定词(例:the,a,an,this,every,each,any,your,their,whose等)
EX Existence There 存在词汇there
FW Foreign Words 外来语/词
IN Prepositions and Subordinating Conjunctions 介词和从属连词
JJ Adjectives 形容词
JJR Comparative Adjectives 形容词比较级
JJS Superlative Adjectives 形容词最高级
LS List Item Markers 列表项标记(例:1. , 2., a, a., ….)
MD Modal Verbs 情态动词
NN Common Nouns(Singular or Mass) 普通名词(单数或复数)
NNS Common Nouns (Plural) 普通名词(复数)
NNP Proper Nouns (Singular) 专有名词(单数)
NNPS Proper Nouns (Plural) 专有名词(复数)
PDT Predeterminers 前置限定词(例:both,all…)
POS Possessive Endings ‘s 以’s结束的词(例:he’s, it’s.)
PRP Personal Pronouns 人称代词(例:i,me,my,you…)
PRP$ Possessive Pronouns 物主代词(例:mine,ours,thine,yours,his,hers,its…)
RB Adverbs 副词
RBR Comparative Adverbs 程度副词(例:hard,fast,early,well,badly,far,quietly,carefully,happily …)
RBS Superlative Adverbs 副词最高级
RP Particles 小品词(例:along,away,back,by,down,forward,in,off,on,out,over,round,under,up…)
SYM Symbols 符号
TO to 单词to
UH Interjection 感叹词(例:aha, ahem, ahh, ahoy, alas, arg, aw, bam, bingo, blah, boo, bravo, brrr,oh …)
VB Verbs (base form) 动词原形
VBD Verbs (past tense) 动词(过去时态)
VBG Verbs (gerund or present participle) 动词(动名词或现分词)
VBN Verbs (past participle) 动词(过去分词)
VBP Verbs (non 3rd person singular present) 动词(非第三人称单数)
VBZ Verbs (3rd person singular present) 动词(第三人称单数)
WDT Wh-determiner Wh开头的限定词(例:what,which…)
WP$ Possessive wh-pronoun Wh开头代词的所有格(例:whom, whose…)
WRB Wh-adverb Wh开头的副词(例:when, where, why, how, whence, whereby, wherein, whereupon, and how)

【参考资料】
[1] 菜鸟教程.正则表达式-元字符
[2] stanfordCorenlp在python3中的安装使用+词性学习
[3] 斯坦福Stanford coreNLP宾州树库的词性标注规范

Supongo que te gusta

Origin blog.csdn.net/SL_World/article/details/105144450
Recomendado
Clasificación