【无标题】多语种平行语料数据,助力“一带一路”深入交流

截至2021年1月底,中国已同140个国家和31个国际组织签署了205份共建“一带一路”合作文件,其中涉及12语系、28语族,约132种语言。语言多样性所引发的语言障碍被认为是阻碍“一带一路”相关国家、地区深入交流的主要挑战之一。

随着近年人工智能和自然语言处理技术的快速发展,机器翻译技术与人工翻译水平的差距不断拉近,机器翻译被看作是突破语言障碍的“金钥匙”,将在“一带一路”经济、政治、外交、文化交流等方面起到越来越重要的作用。

机器翻译,即通过计算机将一种语言的文本翻译成另一种语言,已成为目前解决语言屏障的重要方法之一。

图片

统计机器翻译是当前主流的机器翻译方法,它以平行语料数据为基础获取翻译知识,可以开发出高效、性能优良的翻译系统。大规模高质量的平行语料数据对于统计机器翻译系统性能的提高具有重要作用。

数据堂有几十个语种的大规模、高质量的平行语料数据,涵盖书面语、口语等多种类别。

DATATANG

数据堂部分多语种平行语料清单

在这里插入图片描述

图片沉淀十余年数据处理经验的数据堂,积累了自己在语言资料库方面独特的数据优势,覆盖医疗、外贸、体育、金融、能源、计算机、法律等专业领域,提供各类句子级的双语对齐语料,可以帮助各翻译系统实现中、英、日、韩、法、俄、维等不同语种之间的互译。

猜你喜欢

转载自blog.csdn.net/weixin_44532659/article/details/129089818