中文自然语言处理百万级语料库-ChineseSemanticKB免费下载

    ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

    资源整理自网络,源地址:https://github.com/liuhuanyong/ChineseSemanticKB

    本语料库免费下载地址:https://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247488612&idx=2&sn=5f6d02d1006ddc0b58ab44f579bd519d&chksm=97a0dfb0a0d756a6d68c7c93fc20e0cbc124cfb679a249ed63f7b85e41fe1ea9b6c27e493aca&token=1568774188&lang=zh_CN#rd

项目介绍

    语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:
    1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动;


    2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑;


    3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强;


    4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径;


    5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合;
    因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。

    项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。

词库的类别

总结

    1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万;


    2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;


    3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正;


    4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。

本资源免费下载地址: https://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247488612&idx=2&sn=5f6d02d1006ddc0b58ab44f579bd519d&chksm=97a0dfb0a0d756a6d68c7c93fc20e0cbc124cfb679a249ed63f7b85e41fe1ea9b6c27e493aca&token=1568774188&lang=zh_CN#rd

往期精品内容推荐

深度学习通信领域相关经典论文、数据集整理分享

邱锡鹏DL经典教材-《神经网络与深度学习》免费pdf及ppt分享

肖桐、朱靖波老师新著-《机器翻译统计建模与深度学习方法》中文版书籍分享

李宏毅-《深度学习/机器学习2020》中文视频课程及ppt分享

机器学习精髓-机器学习百页书-最新版下载

12月机器学习新书-《可解释机器学习局限性》最新版下载

学术论文写作精典-《如何撰写优秀科研论文》书籍分享

历史最全-130本科技互联网类免费书籍整理-汇总分享

元学习(Meta Learning)最全论文、视频、书籍资源整理

吴恩达新课-《CS230-深度学习基础-2019年春》课程视频分享

猜你喜欢

转载自blog.csdn.net/lqfarmer/article/details/107885621