- 词干提取
将词语去除变化、衍生形式,转换为词干、原型形式的过程
目标是将相关词语还原为同样的词干
- 词形还原
将一组词语还原为词源或或词典的词目形式的过程
还原过程考虑到了POS问题,即,词语在句中的语义,词语对相邻语句的语义
- 词向量化
用一组实数构成的向量代表自然语言
通过词向量化,词\短语用定位向量表示
- 词性标注
对句子中词语标注名词、动词。。。之类的过程
- 命名实体消歧
句子中提到的实体识别的过程
要求有命名实体库
将句中提到的实体和试题库联系起来
- 命名实体识别
区分句中有特定意义的实体(人名、地名)
- 情感分析
主管分析评论的语义情感
- 语义文本相似度
两段文本的意义\本质之间的相似度
- 语音识别
区分不同语言文本
利用语言属性\统计 执行
- 文本摘要
识别文本重点,创建摘要,缩短文本(不改变文本含义)