自然语言处理的若干问题

一、语言模型

(一)N元语言模型

(二)语言模型性能评价

(三)数据平滑

(四)语言模型自适应方法

 

二、汉语自动分词和词性标注

(一)基本分词方法

(二)未登陆词处理方法

(三)基于多特征的命名实体模型

(四)词性标注

(五)词性标注的一致性检查和自动校对

三、句法分析

(一)统计句法分析以及句法分析的检查

(二)层次化汉语长句结构分析

(三)浅层句法分析

(四)依据句法理论与依存句法分析

四、语义消歧

(一)有监督的语义消歧

(二)基于词典的语义消歧

(三)无监督的语义消歧

(四)语义消歧系统评测

五、文本分类

(一)文本表示

(二)文本 特征选择方法

(三)特征权重计算方法

(四)分类器设计

(五)文本分类器性能评估方法

六、自动文摘和信息抽取

(一)多文档摘要

(二)单文档摘要

(三)信息抽取

七、文档聚类

(一)聚类算法

(二)聚类结果评估

八、自然语言处理的主要范畴

1.文本朗读Text to speech/语音合成Speech synthesis

2.语音识别Speech recognition

3.中文自动分词Chinese word segmentation

4.词性标注Part-of-speech tagging

5.句法分析Parsing

6.自然语言生成Natural language generation

7.文本分类Text categorization

8.信息检索Information retrieval

9.信息抽取Information extraction

10.文字校对Text-proofing

扫描二维码关注公众号,回复: 589812 查看本文章

11.问答系统Question answering

12.机器翻译Machine translation

13.自动摘要Automatic summarization

14.文字蕴涵Textual entailment

九、自然语言处理研究的难点

1. 单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

2.词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

3.句法的模糊性

自然语言文法通常是模棱两可的,针对一个句子通常可能会剖析Parse)出多棵剖析树Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。

4.有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别OCR)的错误。

5.语言行为与计划

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好。

<!--EndFragment-->

猜你喜欢

转载自thd52java.iteye.com/blog/1973140