现代自然语言系统简介

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qinlingheshang/article/details/83997974

自然语言系统的整体逻辑

  • 一个自然语言处理系统也应包含最少三个模块:语言的解析、语义的理解及语言的生成。
    在这里插入图片描述

自然语言处理的一般架构

在这里插入图片描述

  • 中文分词 是汉语自然语言处理的第一步,是将汉字序列切分成一个个单独的词。
  • 词性标注 又称词类标注,是指判断出在一个句子中每个词所扮演的语法角色。例如,表示 人、事物、地点或抽象概念的名称就是名词;表示动作或状态变化的词为动词。
  • 句法解析 是根据给定的语法体系自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系,将句子转化为一棵结构化的语法树。
  • 命名实体识别主要用来识别语料中专有名词和未登录词的成词情况,如人名、地名、组织机构名称等,也包括一些特别的专名。该图中来自左侧的箭头表示命名实体识别受到中文分词和词性标注的影响。也就是说,准确的命名实体识别是以准确的分词和词性标注为前提的。
  • 语义组块用来确定一个以上的词汇构成的短语结构,即短语级别的标注,主要识别名词性短语、动词性短语、介词短语等,以及其他类型的短语结构。语义组块的自动识别来源于中文分词、词性标注和命名实体识别的共同信息。
  • 语义角色标注是以句子中的谓语动词为中心预测出句子中各个语法成分的语义特征,是句子解析的最后一个环节。语义角色标注直接受到句法解析和语义组块的影响。从中文分词阶段到语义角色标注阶段大约经历了4~5个依次串联的模块,这导致语义角色标注的精度显著降低。

参考资料:NLP汉语自然语言处理 原理与实践

猜你喜欢

转载自blog.csdn.net/qinlingheshang/article/details/83997974
今日推荐