《数学之美》 第一章 文字与语言VS数字和信息

通信模型:
信息源编码发出信息→信道传递信息→接受者解码接受信息

语言和词汇增多→文字产生(基于高效记录信息的需求)→概念开始概括和归类
概念的聚类原理上与自然语言的处理或者机器学习的聚类有很大的相似性。
一词多义→产生歧义→根据上下文消除歧义

罗塞塔石碑的启示:
信息的冗余是信息安全的保障;双语或者多语的对照语料对翻译至关重要,是从事机器翻译研究的基础。

使用十进制的原因:人通过掰手指头计数(玛雅文明采取二十进制,一个世纪为四百年)。当数量增多十个手指不够用时就发明了进位。
古印度人发明了阿拉伯数字,标志着数字与文字的分离。

文字和语言背后的数学:
从象形文字进化到了拼音文字,从物体的外形进化到了抽象的概念,就是采用了对信息的编码;
常用字短笔画少,生僻字长笔画多,符合最短编码原理
发明纸张之前,因书写文字不易,古文都非常简洁,但也非常难懂,而说话采用的和现代的白话大致相同;在通信时,如果信道较宽,信息不必压缩可以直接传递,如果信道较窄,信息在传递前需要尽可能的压缩,然后在接收端解压缩。
古犹太人抄写圣经,为了防止发生错误,发明了一种类似于现在的校验码的方法。他们把每一个希伯来字母对应一个数字,每行每列数字加起来得到一个校验码,之后在抄写完成后与原文的的校验码进行对照,如果对不上说明错误的一行或一列至少有一个错误存在,就可以很快找出出错的地方。
从字母到词的构词法是词的编码规则,语法则是语言的编码和解码规则。词可以被认为是有限而且封闭的集合,语言则是无限开放的集合,所以前者可以有完备的编解码规则,而后者则不具备这个特性。


总结:
  • 通信原理和信息传播的模型
  • (信源)编码和最短编码
  • 解码的规则,语法
  • 聚类
  • 校验位
  • 双语对照文本,语料库和机器翻译
  • 多义性和利用上下文消除歧义性

猜你喜欢

转载自blog.csdn.net/weixin_40475469/article/details/78671374