UCAS-AI学院-自然语言处理专项课-第4讲-课程笔记
其他
2020-04-20 20:01:29
阅读次数: 0
UCAS-AI学院-自然语言处理专项课-第4讲-课程笔记
语料库与语言知识库
语料库基本概念
- 语言数据库:
- 大规模语言数据(模型参数标准、评测标准)
- NLP知识库(词汇语义库、词法句法规则库、常识库)
- 语料库:用于存放语言数据的文件
- 语料库语言学:研究自然语言文本的彩集、存储、检索、统计、词性和句法及语义信息的标注、以及具有上述功能语料库在语言定量分析、词典编纂、作品风格分析和人类语言技术等领域的应用
- 研究内容:
- 语料库的建设与编纂
- 语料库的加工和管理
- 语料库的使用
语料库技术的发展
语料库类型
- 四种类型
- 异质(Heterogeneous)语料库:最简单的预料收集方法,没有事先规定和选材原则
- 同质(Homogeneous)语料库:与异质相反
- 系统性语料库:充分考虑语料的动态和静态问题,代表性和平衡问题、以及语料库的规模
- 专用语料库
- 语言种类
- 是否标注
- 具有词性标注
- 句法结构信息标注(树库)
- 语义信息标注
- 生语料:没有做任何标注的语料
- 熟语料:有详细标注信息的语料
- 平衡语料库
- 语料收集时的代表性与平衡性
- 七项原则
- 问题:
- 分布点选取语料量的科学依据
- 使用度是否真实地反映了语言的使用情况
- 平行语料库
- 同一语言的平行(选取时间、对象、比例等)
- 多语言的平行采样加工
- 共时语料库:对语言进行共时(同一时段)研究建立的语料库
- 历时语料库:对语言进行历时(发展变化)研究建立的语料库
- 是否动态
- 文本是否具有量化的流通度属性
- 深加工是否基于动态的加工方法
- 是否取得动态的加工效果
典型语料库介绍
- Brown语料库
- LLC口语语料库
- Longman语料库
- UPenn树库
- 句子语法结构标注
- 中文PropBank和NomBank(后者更关注名词)
- Discourse Tree Bank语篇树库(语篇联通方式相关的一致关系)
- 汉语篇章树库(CTDB)
- Prague依存树库
- 捷克语相关
- 三个层次
- 形态层:形态信息
- 分析层:句法信息
- 深层语法层:深层语法结构
- 综合性语言知识库(CLKB)
- 台湾中研院平衡语料库:
- 口语翻译语料库(BTEC)
- Speech-Translation TED 语料库
- 中科院自动化所和社科院语言所构建的口语对话语料
- CASIA多模态自动文摘语料
- 英文:Topic——Documents——Videos——Summaries
- 中文:主题——文档——视频——摘要
问题与现状
- 问题:
- 动态与静态,取决于目的
- 代表性和平衡性
- 规模
- 语料库的管理和维护
- 汉语语料库问题
- 现状:
- 来自规范文本
- 标注体系不同意
- 没有明确NLP任务导向
语言知识库
WordNet
- 由词义组织词汇信息——语义词典
- 语义关系:同义词集合之间的指针
- 同义关系
- 反义关系
- 上下位关系(从属——上属)
- 部分关系(整体——部分)
- 应用:词汇消歧,语义推理,理解
知网HowNet
- 四个基本观点
- NLP系统需要强大知识库支持
- 知识是一个系统
- 先建立常识性知识库
- 由知识工程师设计知识库框架
概念层次网络
知识图谱
- 描述实体之间的关系和实体或概念的属性
- DBPedia:基于维基百科
- YAGO
- BabelNet
- XLORE
- 关键技术
发布了14 篇原创文章 ·
获赞 0 ·
访问量 67
转载自blog.csdn.net/cary_leo/article/details/105642999