Introducción: ¿No puedes escribir oraciones estándar en inglés? ¿Es demasiado problemático buscar en Google uno por uno? Use Antconc rápidamente, la importación de corpus solo requiere unos pocos pasos para ayudarlo a analizar la frecuencia de palabras y encontrar colocaciones comunes.
Directorio de artículos
Uno, caracteres especiales regulares de uso común
personaje | descripción |
---|---|
^ | Coincide con el comienzo de la cadena de entrada. |
PS | Coincide con la posición final de la cadena de entrada. |
* | Coincide con la subexpresión anterior 零次 o 多次 . Por ejemplo, zo* coincide z bien zoo . * Es equivalente a {0,} . |
+ | Coincide con la subexpresión anterior 一次 o 多次 . Por ejemplo, ' zo+ ' puede coincidir con " zo " y " zoo ", pero no con " z ". + Es equivalente a {1,} . |
? | Coincide con la subexpresión anterior 零次 o 一次 . Por ejemplo, " do(es) ?" Puede coincidir con " do " o " does ". ? Es equivalente a {0,1} . |
. | Coincide con cualquier carácter individual excepto el carácter de nueva línea \ n. |
() | Marque el comienzo y el final de una subexpresión . |
[] | Expresión de corchetes. |
{} | Marque el calificador . Si wor{2} puede coincidir words pero no coincidirword |
x|y | Coincide con x o y. Por ejemplo, 'z | food' puede coincidir con "z" o "food". '(z | f) ood' coincide con "zood" o "comida". |
[xyz] | Juego de caracteres, equivalente ax | y | z |
[^ xyz] | Juego de caracteres negativos. Coincide con cualquier carácter que no esté incluido. Por ejemplo, '[^ abc]' puede coincidir con 'p', 'l', 'i' y'n 'en "plano". |
[Arizona] | Rango de caracteres. |
[^ az] | La gama de caracteres negativos. Por ejemplo, '[^ az]' puede coincidir con cualquier carácter que no esté en el rango de 'a' a 'z'. |
Dos metacaracteres regulares
personaje | descripción |
---|---|
\s | Coincide con cualquier carácter en blanco. |
\S | Coincide con cualquier 非 carácter en blanco. |
\ w | Haga coincidir letras, números y guiones bajos. Equivalente a '[A-Za-z0-9_]'. |
\ W | Haga coincidir 非 letras, números y guiones bajos. Equivalente a '[^ A-Za-z0-9_]'. |
\B | Coincide con el límite de una palabra. Por ejemplo, ' er\b ' puede coincidir con never ' er ' en " verb " pero no puede coincidir con ' er ' en " " . |
\B | Haga coincidir los 非 límites de las palabras. 'er \ B' puede coincidir con el'er 'en "verbo" pero no con el'er' en "nunca". |
\D | Coincide con un carácter de dígito. Equivalente a [^ 0-9]. |
\D | Coincide con un 非 carácter de dígito. Equivalente a [^ 0-9]. |
En tercer lugar, la recopilación de partes comunes del discurso en inglés.
Etiqueta de parte del discurso | Nombre completo en inglés | Explicación china | Ejemplo |
---|---|---|---|
ANUNCIO | Adverbios | adverbio | Incluyendo adverbios modales, adverbios de frecuencia, adverbios de grado, adverbios conjuntivos, etc. |
CC | Conjunción de coordinación | Coordinar conjunciones | Y, y, o, o |
CS | Conj subordinado | Conjunción subordinada | Si, si, como |
DT | Determinante | Calificadores,冠词 | the, a, an, this, every, each, any, your, their, which 等) |
EX | Existencia allí | Vocabulario existencial | allí |
IN | Preposiciones y conjunciones subordinantes |
介词Y conjunciones subordinadas | en, aproximadamente, a |
JJ | Modificador de sustantivo distinto de los anuncios | 其他名词形容词 | 共同/JJ的/DEG目的/NN 他/PN是/VC男//JJ的/DEG |
NN | Common nouns | 普通名词(单数或复数) | 桌子(一般正则用_N\w* ) |
NR | Proper nouns | 专有名词 | 天安门 |
VB | Verbs (base form) | 动词原形 | |
VH | 动词"有" 的词类标记 | have | |
VV | verbs | 其他动词 | 情态动词,提升谓词(如“can”),控制动词(如“要”、“想”), 行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨” |
VA | Predicative adjective | 谓词形容词 | 太阳红彤彤/VA |
MD | Modal Verbs | 情态动词 | can,may |
VC | Copula | 系动词 | am.is.are,was |
RB | Adverbs | 副词 | |
TO | to | 单词to | |
RP | Particles | 小品词 | along,away,by,down,in,off,on,out,over |
以下根据Antconc
软件以及词性标注数据,做了一个词频如下图
然后导出到Excel中进行清洗,得到如下图,并进行重点标注,方便正对性记忆。
四、使用案例
首先,我们使用已词性标记的英文语料,标记形式如下图。可见词性标记先将文本内容分词(常用HMM隐马模型进行词性标注任务),然后在每个词后面加入_<词性缩写>
来达到标记效果,如The_DT
表示标记为冠词
的单词The
。
在了解了具体词性标注文本格式后,我们在匹配想要的句式结构时,就可以利用<原词>_<词性缩写>
格式特点来写正则表达式。
【句式1】:be动词+冠词/副词(if any)+形容词+名词/介词
【正则表达式】:
\S+_VB\w*\s\S+((_DT)|(_RB\w*))\s\S+_JJ\w*\s\S+((_NN\w*)|(_IN))\s
【部分解释】:
\S+
意图匹配下划线_
前的非空原词字符串,+
表示非空字符\S
有1
个或多
个,这样我们就可匹配到_
前的一个任意长度单词(字符串),例如该项可匹配到is_VBZ
中的is
。_VB\w*\s
是匹配词性,但是词性按粗粒度到细粒度划分有很多,比如VB
(动词原形)下属有VBZ
(第三人称单数动词),VBG
(动名词或现在分词),VBP
(非第三人称单数动词)。因此,我们在后面加\w*
表示可以匹配0
或多个字符(*
采用贪心匹配,选择最长字符作为结果),最后因为词与词之间是空格,因此再加入\s
用来匹配一个空字符。例如该项可匹配到is_VBZ
中的_VBZ(空格)
。((_DT)|(_RB\w*))
意图匹配DT冠词或RB副词,()
中为子表达式,如(_DT)
将_DT
作为一个整体,通过|
或关系对冠词或副词进行匹配。例如该项可匹配到also_RB
中的_RB
或a_DT
中的_DT
。- 其余原理相似,不再赘述。
【句式1的其他等价写法】:能合并同类项可以少些点。
\S+_VB\w*\s((\S+_DT)|(\S+_RB\w*))\s\S+_JJ\w*\s\S+((_NN\w*)|(_IN))\s
\S+_VB\w*\s((\S+_DT\s\S+)|(\S+_RB\w*\s\S+))_JJ\w*\s\S+((_NN\w*)|(_IN))\s
得到结果如下图
可见有驸马标记,为了简洁好看,我们可以通过全局设置将其隐藏,如下图
最终结果如下图,可见有很多实用的论文书面搭配。
【句式2】:形容词+名词+have(has)+动词过去式+that
【正则表达式】:
\S+_JJ\w*\s\S+_N\w*\s\S+_VH\w*\s\S+_VV\w*\sthat
【部分解释】:
VH\w*
意图匹配动词有
及其下属词性,如have,has等。\sthat
注意匹配的是(空格)that
VV
匹配其他动词词性,如shown,found等。
【句式3】:形容词+名词+动词(任意形式)+that
【正则表达式】:
\S+_JJ\w*\s\S+_N\w*\s\S+_V\w*\sthat
【句式4】:…+形容词+classifier(s)+…
【正则表达式】:
\S+_JJ\sclassifiers?
【部分解释】:
classifiers?
意图匹配classifier
后面的字符s
可有可无,可匹配到classifier
以及classifiers
。
【句式5】:however/although/nevertheless(固定连词)+带有形容词的从句
【正则表达式】:
((however)|(although)|(nevertheless)).+\S+_JJ\w*\s
【部分解释】:
.+
匹配如although
之后的长度为1
及以上非换行符\n
字符串。本例中匹配although_IN in_IN many_JJ
中的_IN in_IN(空格)
【句式6】:we/study/research/paper+任意词(if any)+动词
【正则表达式】:
((we)|(study)|(research)|(paper))_\S+\s(\S+_\S+\s)?\S+_VV\w*\s
如果想精确性查找This paper+任意词(if any)+动词
则可以使用
this_DT\spaper_NN\s(\S+_\S+\s)?\S+_VV\w*\s
【部分解释】:
(\S+_\S+\s)?
匹配0
个或1
个任意词<原词>_<词性>(空格)
,若替换为*
则匹配0
个或多个
【注】:修改底部KWIC
的排序方式,从左到右依次按照ASCII
码大小排序,修改后排序方式变化但总记录数不变。
【句式7】:动词+任意词(if any)+question
【正则表达式】:
\S+_VV\w*\s(\S+_\S+\s)?questions?
【部分解释】:
(\S+_\S+\s)?
匹配0
个或1
个任意词<原词>_<词性>(空格)
,若替换为*
则匹配0
个或多个questions?
匹配question
和questions
【句式8】:This paper+be动词+动词被动+as follows
【正则表达式】:
paper_NN\s\S+_VB\w*\s\S+_VV\w*
附录-完整词性表
英文简写 | 英文全称 | 中文解释 |
---|---|---|
CC | Coordinating Conjunctions | 并列连词 |
CD | Cardinal Numbers | 基数词 |
DT | Determiners | 限定词(例:the,a,an,this,every,each,any,your,their,whose等) |
EX | Existence There | 存在词汇there |
FW | Foreign Words | 外来语/词 |
IN | Prepositions and Subordinating Conjunctions | 介词和从属连词 |
JJ | Adjectives | 形容词 |
JJR | Comparative Adjectives | 形容词比较级 |
JJS | Superlative Adjectives | 形容词最高级 |
LS | List Item Markers | 列表项标记(例:1. , 2., a, a., ….) |
MD | Modal Verbs | 情态动词 |
NN | Common Nouns(Singular or Mass) | 普通名词(单数或复数) |
NNS | Common Nouns (Plural) | 普通名词(复数) |
NNP | Proper Nouns (Singular) | 专有名词(单数) |
NNPS | Proper Nouns (Plural) | 专有名词(复数) |
PDT | Predeterminers | 前置限定词(例:both,all…) |
POS | Possessive Endings ‘s | 以’s结束的词(例:he’s, it’s.) |
PRP | Personal Pronouns | 人称代词(例:i,me,my,you…) |
PRP$ | Possessive Pronouns | 物主代词(例:mine,ours,thine,yours,his,hers,its…) |
RB | Adverbs | 副词 |
RBR | Comparative Adverbs | 程度副词(例:hard,fast,early,well,badly,far,quietly,carefully,happily …) |
RBS | Superlative Adverbs | 副词最高级 |
RP | Particles | 小品词(例:along,away,back,by,down,forward,in,off,on,out,over,round,under,up…) |
SYM | Symbols | 符号 |
TO | to | 单词to |
UH | Interjection | 感叹词(例:aha, ahem, ahh, ahoy, alas, arg, aw, bam, bingo, blah, boo, bravo, brrr,oh …) |
VB | Verbs (base form) | 动词原形 |
VBD | Verbs (past tense) | 动词(过去时态) |
VBG | Verbs (gerund or present participle) | 动词(动名词或现分词) |
VBN | Verbs (past participle) | 动词(过去分词) |
VBP | Verbs (non 3rd person singular present) | 动词(非第三人称单数) |
VBZ | Verbs (3rd person singular present) | 动词(第三人称单数) |
WDT | Wh-determiner | Wh开头的限定词(例:what,which…) |
WP$ | Possessive wh-pronoun | Wh开头代词的所有格(例:whom, whose…) |
WRB | Wh-adverb | Wh开头的副词(例:when, where, why, how, whence, whereby, wherein, whereupon, and how) |
【参考资料】
[1] 菜鸟教程.正则表达式-元字符
[2] stanfordCorenlp在python3中的安装使用+词性学习
[3] 斯坦福Stanford coreNLP宾州树库的词性标注规范