In Chinese zh_core_web_sm-2.3.1 and English en_core_web_sm, how many tags does token_pos actually have?

1. For the en_core_web_sm-2.3.1 model, the token.pos_ attribute has a total of 18 tags, and the meaning of each tag is as follows:

ADJ: 形容词,表示人、事、物等的特征或性质。
ADP: 介词或后置词,表示时间、地点、方向、方式等。
ADV: 副词,表示动作或描述的方式、程度、频率等。
AUX: 助动词,用于表示时态、语态、情态等。
CCONJ: 连词,用于连接两个相同类型的句子成分。
DET: 限定词,用于确定名词的范围或数量。
INTJ: 感叹词,表示强烈的感情或语气。
NOUN: 名词,表示人、事、物等的名称或类别。
NUM: 数词,表示数量。
PART: 小品词,表示语气、语调等。
PRON: 代词,用于代替名词。
PROPN: 专有名词,表示特定的人、事、物等名称。
PUNCT: 标点符号,表示句子结构、语气等。
SCONJ: 子连词,用于连接主从句等。
SYM: 符号,用于表示特殊符号。
VERB: 动词,表示动作或状态。
X: 其他,用于表示无法归类的词。
SPACE: 空格,表示空格符号。
注意:SPACE是一种特殊的词性标签,用于表示空格符号,而不是词汇本身的词性。

2. For the zh_core_web_sm-2.3.1 model, the token.pos_ attribute has a total of 40 tags, and the meaning of each tag is as follows:

AD: 副形词,即具有形容词功能的副词。
AS: 助词,用于表示语气、时态等。
BA: 把字结构,用于表示动作的完成、结果等。
CC: 连词,用于连接两个相同类型的句子成分。
CD: 数词,表示数量。
CS: 关联词,用于连接两个不同类型的句子成分。
DEC: 的字结构,用于表示所属关系。
DEG: 的字连接,用于连接名词与形容词、数词等。
DER: 得字结构,用于表示动作的结果、程度等。
DEV: 地字结构,用于表示动作的方式、状态等。
DT: 限定词,用于确定名词的范围或数量。
ETC: 等等,用于表示列举。
FW: 外来词,即来源于外语的词语。
IJ: 感叹词,表示强烈的感情或情感。
JJ: 形容词,用于描述名词的特征或属性。
LB: 语素字,用于构成词语的基本单位。
LC: 方位词,表示方位关系。
M: 数量词,表示数量或程度。
MSP: 意思标记,表示某些词语的意思。
NN: 名词,用于表示人、事物、地方等实体。
NR: 人名,用于表示人物名称。
NT: 机构团体名,用于表示组织机构或团体的名称。
OD: 序数词,表示顺序或次序。
ON: 拟声词,表示声音、动作等的模拟。
P: 介词,表示名词与其他词语之间的关系。
PN: 代词,用于代替名词。
PU: 标点符号,用于分隔句子、段落等。
SB: 主语结构,用于表示句子的主语成分。
SP: 句子结构,用于表示句子的结构。
VA: 动形词,即由动词和形容词构成的词语。
VC: 是字结构,用于表示句子中的“是”字结构。
VE: 有字结构,用于表示句子中的“有”字结构。
VV: 动词,表示动作或状态。
X: 非语素字,用于标记不属于任何词类的语言成分。
Y: 语气词,用于表示语气。
Z: 状态词,用于表示状态。
ZR: 着字结构,用于表示动作的状态或结果。
ADJ: 形容词,用于描述名词的特征或属性。
ADP: 介词或后置词,表示名词与其他词语之间的关系。
ADV: 副词,表示时间、地点、方式、程度等。
AUX: 助动词,用于构成各种时态和语态的动词形式。
CONJ: 连词,用于连接两个相同类型的句子成分。
PART: 小品词,用于构成语气、句式、语调等。
PRON: 代词,用于代替名词。

Guess you like

Origin blog.csdn.net/weixin_41862755/article/details/129814180