NiuTensor开源框架:C语言编写,支持CPU和GPU,可快速修改底层实现 | 百万人学AI评选

2020 无疑是特殊的一年,而 AI 在开年的这场”战疫“中表现出了惊人的力量。站在“新十年”的起点上,CSDN【百万人学AI】评选活动正式启动。本届评选活动在前两届的基础上再度升级,设立了「AI优秀案例奖Top 30」、「AI新锐公司奖Top 10」、「AI开源贡献奖Top 5」三大奖项。我们相信,榜样的力量将成为促进AI行业不断发展的重要基石,而CSDN将与这些榜样一起,助力AI时代的”新基建“。

活动官网:https://bss.csdn.net/m/topic/ai_selection/index

申报地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司简介

沈阳雅译网络技术有限公司由小牛翻译团队创立于2012年5月,致力于通过研发自主可控的机器翻译技术,打造全方位的机器翻译基础设施平台,为企业级用户提供多语种全栈式机器翻译服务解决方案。小牛翻译团队是国内规模最大的机器翻译产学研团队,近80%成员拥有硕士或博士学位,核心成员来自拥有40年机器翻译研发积累的东北大学自然语言处理实验室。 

小牛翻译团队核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于 1980 年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作。专注于语言智能研究40年,主要包括机器翻译、语言分析、文本挖掘等。承担30+项国家级研究项目,发表66篇CCF A/B 类会议论文和IEEE/ACM Transactions 杂志长文。团队研发的小牛翻译系统已经得到广泛应用,目前支持 187 种语言互译,通过小牛翻译开放平台(https://www.NiuTrans.com)让机器翻译技术赋能全球企业。

二、开源项目简介

2007年,东北大学自然语言处理实验室和小牛团队开始研发小牛开源平台,并开源了机器翻译系统NiuTrans和张量计算框架NiuTensor。NiuTrans包括统计机器翻译系统SMT和神经机器翻译系统NMT。(开源地址:https://developer.niutrans.com/

从20世纪90年代起,统计机器翻译技术快速发展,但是系统实现代价很大,基本上只能从底层开发。为了提高研究者的研发效率,我们于2011年开源了NiuTrans系统的SMT版本,为国内众多机器翻译研究者提供了极大的便利。该系统支持多线程,由C++编写,简单易用的API,运行速度快,翻译任务中高质量的翻译效果;内嵌小巧、高效的N-元语言模型,无需其它软件(如SRILM)的外部支持;支持基于短语、层次短语和句法(树到串、串到树、树到树)的翻译模型。迄今为止NiuTrans系统已被70多个国家3000多个机构和个人使用,获得了国内自然语言处理的最高奖项钱伟长中文信息科学技术奖一等奖,并参加了多次评测,取得了很好的成绩。

随着深度学习技术的快速崛起,神经机器翻译成为了新的范式。神经机器翻译离不开张量计算框架的支持,目前已经框架的扩展性和通用性很好,但不方便进行底层的修改和扩展,并且没有针对任务进行特定的优化。针对这些问题,我们于2019年开源了面向自然语言处理应用的张量计算框架NiuTensor。NiuTensor提供了完整的张量定义及计算功能,简单小巧,易于修改;c语言编写,代码高度优化;同时支持CPU和GPU设备;丰富的张量计算接口;支持C/C++调用方式,未来将支持Python等多种调用方式。  

NiuTensor是目前国内为数不多的张量计算框架,为深度学习研究者提供了极大的便利和更多的选择空间。研究者可以简单快速地修改底层实现,比如支持神经网络进行整型数据类型计算等,从而可以新的提出技术改进。

基于NiuTensor开源框架,我们于2020年开源了NiuTrans系统的NMT版本,可以帮助开发者搭建自己的神经机器翻译模型。该系统基于Transformer模型架构,并对目前比较有效的技术进行了实现,比如相对位置编码、深层网络等,从而可以快速复现一些论文和工作。该系统已经在小牛翻译在线系统中进行使用,并成功部署在手机、翻译机等小设备上。

三、开源影响力介绍

小牛开源项目主要包括NiuTrans机器翻译开源工具、NiuTensor深度学习开源框架以及基于NiuTensor的自然语言处理应用实例,其中NiuTrans系统支持统计机器翻译方法中基于短语、基于层次短语和基于句法(包括树到串、串到树、树到树)的五大模型。开源系统免费提供给学术界以及工业界用于统计机器翻译研究使用,该系统已经被来自于70多个国家的3000多家研究机构和个人下载。该系统在CWMT2009汉英翻译评测中取得了第二名的成绩;在CWMT2011获得第一的成绩;2011年日本东京举办的NTCIR-9专利汉英翻译评测中获得第二的成绩。

此外,该系统在自然语言处理领域国际顶级会议ACL2012上进行论文发表(NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation. ),截至目前,该文章引用次数已达79次。对于NiuTensor深度学习框架及其应用实例,该系统面向自然语言处理(机器翻译、语言建模、命名实体识别等)任务进行高度优化,目前已在小牛开源网站以及github上公开使用文档以及开源代码,该系统将于2020年底正式发布。目前NIuTensor系统已在东北大学本科、硕士授课中进行初步使用,口碑颇丰。

小牛开源系统主要通过网站和github结合的方式为开发者提供技术支持,网站以及github上提供开源系统的使用说明文档(安装文档、用户接口、应用案例、技术说明),此外当开发人员在使用开源系统遇到问题时可以通过github上的issue进行发帖提问,或者直接通过邮件联系开发人员进行问题的沟通解决。后续开源系统将提供额外的机器翻译论坛,供研究、开发人员针对机器翻译及其相关技术进行在线讨论。

小牛开源系统针对开发者的需求,对外提供丰富的工具包。如对于NiuTrans开源系统对外提供NiuTrans Server工具,能够帮助用户快速地将NiuTrans机器翻译系统部署在用户本地,用户可以通过本地局域网进行访问,因此它不受在线翻译系统中访问次数、网络稳定性及数据安全等问题的限制;同时NiuTrans Server提供了很多在线翻译系统无法提供的功能(如翻译记忆库等)。此外小牛开源系统对外积极进行推广以及生态构建,通过沈阳雅译、小牛思拓等公司向腾讯、华为、京东等企业提供高效稳定的机器翻译能力支持。

猜你喜欢

转载自blog.csdn.net/weixin_37986590/article/details/106103426