《数学之美》——第一章 个人笔记

                                数学之美

第一章    文字和语言 vs 数字和信息

1 信息

通信的原理就是这三个步骤,本质上是一致的,只不过今天的实现形态发生了变化。更技术,更高大上了。

2 文字和数字

语言的越来越丰富,词汇的越来越多,人无法记住所有产生的词汇,所以文字就此诞生,是为了高效记录信息的诉求。

文字也如同语言最初一样,会慢慢的增长。因此,概念的第一次概括和归类就开始了。文中栗子:'日'本意是太阳 ;日初日落代表一天的时间周期,也就是一天。这种概念的聚类,在原理上与今天NLP或者ML的聚类有很大的相似性。

聚类可能会带来歧义,解决办法,就是通过上下文。但是上下文建立的概率模型再好,也有失灵的时候。这是语言从产生伊始就固有的特点。(有篇论文就是从微博上下文来讨论情感分析的。)

地域等因素的差异,导致文字的不同。但文明间需要交流通信,翻译的需求便由此产生。翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。

⭐文字只是信息的载体,而非信息本身(总感觉像个套话,哈哈)(数字作为载体,现代通信的基础)。

⭐⭐作者通过石碑得到的两个指导意义很赞。

罗塞塔石碑上有三种语言:埃及象形文字,埃及的拼音文字,古希腊文。

对NLP的两点指导意义:

①信息的冗余是信息安全的保障,同一内容保存三次,只要有一份完整保留,原始信息就不会丢失,对信道编码有指导意义。

②语言的数据,即语料(做个性化词典的预料?),尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。

与文字类似,数字则是物理资源多到爆炸,你要统计一下才知道的情况下诞生的。这里很有意思,⭐今天我们为什么用十进制,因为双手一共有十个指头掰(哈哈)。

十个不够用,进位制就出来了。这是人类的一大飞跃,对数量进行编码了。

(玛雅二十进制,原来太阳纪是这么来的,世界末日?)中国人用‘’个十百千万亿兆‘’,比罗马的编码好多了。(我可以放心说罗马数字很蠢了= =!)

最有效的数字是古印度人发明的‘’阿拉伯数字‘’——0-10,世界通用,原来阿拉伯人=二道贩子!!!原谅我的无知。

阿拉伯数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里米有重合的轨迹,而且越走越远

3 文字和语言背后的数学

楔(xie)形文字——一种拼音文字,带到古希腊,古希腊文字母的拼写和读音紧密结合,容易学习,伴随着马其顿人和罗马人的扩张,随后成为了欧亚非大陆语言体系的主体。因此,所有西方的拼音文字称为罗马式的语言(Roman Languages)

象形文字到拼音文字的一个飞跃:对于常用字短,生僻字长,完全符合信息论中的最短编码原理

原来那时期的口语与今天的白话差别不大(岭南客家话居然基本上保留了古代口语的原貌),但没有纸张,古文就简洁(难刻,龟壳硬= =让我想到了大秦的云梦竹简那老哥—‘喜’),对我们现在人来说就难懂。所以符合今天信息科学(和工程)的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。文中用宽带互联网和移动互联网的例子讲的很通俗。

⭐文中的校验码——字母对应数字,数字组成’校验码’,可以进行检验。

文中有个关于语言学的:到底是语言对,还是语法对。NLP的成就确定了前者,作者还用了莎士比亚做说明。

猜你喜欢

转载自www.cnblogs.com/NEWzyz/p/8932901.html