《数学之美》-Uzi

Rosetta罗赛塔

信息的冗余是信息安全的保障。罗赛塔石碑上的内容是同一信息重复三次，（上面有三种语言：埃及象形文字、埃及的拼音文字、古希腊文），因此只要有一份内容完好保留下来，原有的信息就不会丢失，这对信道编码有指导意义。（感谢2000多年前古埃及人在罗赛塔石碑上用三种文字记录了托勒密五世登基的诏书）

自然语言处理：应用最多的是N=3的三元模型。

古德-图灵估计（Good-Turing Estimate）原理：对于没有看见的事物，我们不能认为它发生的概率就是零，因此我们从概率总量(Probability Mass)中，分配一个很小的比例给这些没有看见的事件。 “越是不可信的统计折扣越多”

雅各布森（roman jakobson）：发送者（信息源）、信道、接收者、信息、上下文、编码

隐含马尔可夫模型 ——>训练算法：无监督。鲍姆-韦尔奇算法（Baum-Welch Algorithm）期望最大化（Expectation-Maximization，EM过程）

——>解码算法：维特比算法

几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程。

信息的作用在于消除不确定性，自然语言处理的大量问题就是寻找相关的信息。

消除词义的二义性：使用互信息。

“相对熵”也称为“交叉熵”(Relative Entropy，或Kullback-Leibler Divergence)：KL(f(x)||g(x))不等于KL(g(x)||f(x))

用来衡量相关性，但和变量的互信息不同，它用来衡量两个取值为正数的函数的相似性。

注：KL散度是不对称的，为了让他对称，詹森和香农提出了一种新的相对熵的计算方法，JS(f(x)||g(x))=1/2*[KL(f(x)||g(x))+KL(g(x)||f(x))]

贾里尼克

技术分为术和道两种。具体的做事方法是“术”，做事的原理和原则是“道”。

数学的发展实际上是不断的抽象和概括的过程。

布尔代数对于数学的意义等同于量子力学对于物理学的意义，他们将我们对世界的认识从连续状态扩展到离散状态。

我们的宇宙的基本粒子数目是有限的，而且远比古高尔（googol，10的100次方）要小得多。

（google公司的名字便是来源于此，表示他的索引量大。）

搜索引擎：下载（图论中的遍历（Traverse）算法）、索引、排序。

Truth is ever to be found in simplicity, and not in the multiplicity and confusion of things.

离散数学：数理逻辑、集合论、图论、近世代数四个分支。

遍历：广度优先搜索（Breadth-First Search，简称BFS）

深度优先搜索（Depth-First Search，简称DFS）

google革命性的发明：PageRank 网页排名算法—>核心思想：在互联网上，如果一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。（并且网页排名高的网站贡献的链接权重大。）

智能手机的定位和导航功能，三项关键技术：1.利用卫星定位；2.地址的识别；3.根据用户输入的起点和终点，在地图上规划最短路线或者最快路线

全球导航的关键算法：动态规划（Dynamic Programming,简称 DP算法）算法

加权的有限状态传感器（Weighted Finite State Transducer，简称WFST）

阿米特-辛格博士（google AK-47的设计者）：先帮助用户解决80%的问题，再慢慢解决剩下的20%的问题，是在工业界成功的秘诀之一。

许多失败并不是因为人不够优秀，而是做事情的方法不对，一开始追求大而全的解决方案，之后长时间不能完成，最后不了了之。

奇异值分解（Singular Value Decomposition，简称SVD）：一次就能把所有的相关性都计算出来。

文本分类问题：实际应用中，可以先进行奇异值分解，得到粗分类结果，再利用计算向量余弦的方法，在粗分类结果的基础上，进行几次迭代，得到比较精确的结果。——>既节省时间，又准确。

伪随机数产生器算法(Pseudo-Random Number Generator，简称PRNG)

现在常用：梅森旋转算法(Mersenne Twister)

基于加密的伪随机数产生器(Cryptographically Secure Pseudo-Random Number Generator，简称CSPRNG)

相似哈希（Simhash）

信息论实际上就是情报学的直接产物。

最大熵原理（The Maximum Entropy Principle）

把各种特征综合在一起最好的方法是采用最大熵模型。

布隆过滤器（Bloom Filter）：是一个很长的二进制向量和一系列随机映射函数。它只需要散列表1/8到1/4的大小就能解决同样的问题。

维特比算法（Viterbi Algorithm）

期望最大化算法（Expectation Maximization Algorithm） —>上帝的算法

云计算：分治算法

MapReduce根本原理：将一个大任务拆分成小的子任务，并且完成子任务的计算，这个过程叫做Map，将中间结果合并成最终结果，这个过程叫做reduce。 —— 而如何将一个大矩阵自动拆分，保证各个服务器负载均衡，如何合并返回值，这就是MapReduce在工程上所做的事情了。

人工神经网络—>在多维空间进行模式分类的问题。

在现实生活中，真正能够通用的工具在形式上必定是简单的。

大数据的好处远不只是成本和准确性的问题，它的优势还在于多维度（或叫全方位）。