1.信息论①

信息时代最大的特征是不确定性。

世界上的知识可以分为道和术两个层面

世界上任何一个探索者都需要清楚三件事：我们现在的位置、我们的目标、通向目标的道路

（一）信息产生

在面对大量信息时，排除噪音，提取利用有效信息，科学做决策的能力

（二）信息传播

向外界传递信息时，平衡分配有限资源，增加沟通带宽，放大影响力的能力

（三）信息应用

看懂信息应用的逻辑和通信发展的趋势，提前抓住新机遇的能力

01

（1）信息很重要，四两拨千斤的作用。信息作用的大小和信息量有关。

（2）信息量和不确定性有关，大家都知道的事，就没有什么信息量了。

（3）对一个未知系统（黑盒子）所作出的估计和真实情况的偏离，就是信息的损失，偏离越多损失越大。

02

普朗克时间是能够度量的最小时间单位，大约是10的负44次方秒

信息和能量一样，都是宇宙本身固有的特性。世界上没有绝对的可靠，只有可靠性的高和低，信号和噪音比率的高和低。

从信息论的角度看，信息的可靠性——置信度。

好的论文，一方面需要信息量高，另一方面需要在信息传播上效率高。讲演时要精简，要保证对方听懂自己最核心的想法。

03

当下常见且最成功的四类应用：

（1）解决人工智能问题，把那些过去看似需要人脑推理的问题，变成今天基于大数据的计算问题（语音识别——机器翻译）

利用数据（信息）消除不确定性——香农信息论的本质，大数据思维的科学基础

（2）利用大数据，进行精准的服务

摸索商业趋势：公司从重研究方法到重数据收集的转变

（3）动态调整我们做事情的策略

足够多大数据可以帮助我们动态匹配最佳结果

（4）发现原来不知道的规律

互信息理论

04

对于一条信息，重要的是找出其中有多少信息量，要搞清楚“信息量”，就要对信息进行量化的度量。

香农最大的贡献在于找到了这个“砝码”——比特；就是将信息的量化度量和不确定性联系起来。

比特：如果一个黑盒子中有A、B两种可能性，他们出现的概率相同，那么要搞清楚到底是A还是B，所需要的信息量，就是1比特。如果P(A)＞P(B)，那么解密它们所需要的信息＜1bit

05信息编码

（1）对数字的各种编码是等价的，无非是平衡编码复杂性和编码长度之间的关系

在一个编码系统中解决不了的问题，换一个系统同样解决不了

香农第一定律：只要编码设计得足够巧妙，就可以找到最短编码

编码长度 ≥ 信息熵（信息量）/每一个码的信息量

（2）人类的不平等是从文字开始的。在任何历史阶段，谁控制了信息，谁就是世界的主人。对于个体来讲，改变自身获取信息的能力，要改变整个社会的不平等容易得多。

06 有效编码

好的编码第一个特点——便于区分不同的信息

五个原则：

（1）明确：沟通的核心，只有一一表达的明确，才能保证对方不误解

（2）诚实：能够明确表述的基础

（3）勇气：代表对一件事的态度确定

（4）责任：对一件事要有所谓

（5）同理心

信息编码基本原则：

（1）“易识别”，有效性；（凡事过犹不及）

（2）有效性：

（3）有效编码：让理论最佳值在应用中落地。学以致用。

eg：有64瓶药，其中63瓶是无毒的，一瓶是有毒的。如果做实验的小白鼠喝了有毒的药，3天后会死掉，当然喝了其它的药，包括同时喝几种就没事。现在只剩下3天时间，请问最少需要多少只小白鼠才能试出那瓶药有毒？

答：64选1的任务，只需要log 64=6bit的信息；每一只老鼠提供了1bit的信息。

采用大量用户反馈信息决定产品的设计和技术方案

07最短编码：利用哈夫曼编码原理投资

MIT教授哈夫曼发明的，哈夫曼编码

（1）香农第一定律，可以得出编码长度是有个理论最小值的，从数学上可以证明哈夫曼的编码方法是最优化的。

（2）哈夫曼编码从本质上讲，是将最宝贵的资源（最短的编码）给出现概率最大的信息。对于资源如何分配，哈夫曼给出一个原则：一条信息编码的长度和出现概率的对数成正比

（3）在现实生活中，很多信息的组合，比单独一条信息，概率分布差异更大，因此对他们使用哈夫曼编码进行信息压缩，压缩比会更高。

通过每一次双倍砸钱（double down），把最多的钱投入到最容易成功的项目上，

就好比用圆规画圆，一方面有一个扎的很深的中心，另一方面有足够广的很浅的覆盖面。

tip:

①：从来不排斥尝试新东西，这样不会失去机会，我尝试过的各种事情远比外界知道的多，只是绝大部分失败了。我没有继续罢了，大家也就无从知晓了。

②：对于花一些精力，看样子做不成的事情，坚决做减法止损。（可以把最多的资源投入到我擅长的，有兴趣的，可能也是成功率最高的事情上。

08 矢量化

信息的矢量数字化（VQ）——矢量化

信息越多，需要的编码越多，这是文明自然演变不可避免的过程。

计算机中使用的字体有位图（bitmap）和矢量图 2种。位图一经放大就会出现锯齿，而矢量图随便放大，都很清晰。

09冗余度

在信息论中，用冗余度对信息的这种“密集”和“稀疏”程度进行描述。

冗余度=（信息编码的长度-一条信息的信息量）/信息的编码长度

如果冗余度太低，会严重影响接收信息的速度

冗余度的好处：易理解、消歧义、容错性

①便于理解 ②在语言上消除了很多歧义性 ③带来信息的容错性

坏处：

①直观的感受就是在存储和传递信息时的浪费。

②如果信息中混有噪音，过多没用的信息可能会导致错误

无论是读书还是学习，都要想办法把书读薄，也就是去掉冗余的信息。要读出主线，将一些细节过滤掉。

10 等价性

傅里叶变换

很多时候，一种原始的信息，他们虽然里面有很多冗余成分，但是很难直接压缩掉。但我们可以将它们转化为容易压缩的等价的信息，再进行压缩，然后进行存储和传输。在使用和接收到被压缩的等价信息后，先进行解压，再恢复原来的信息。

善用等价信息，是每一个人都必须掌握的工作技巧。

11 信息增量：信息压缩中的保守主义原则

主帧微调增量编码

信息的压缩：视频的压缩比要远比图片的高很多；一般会差两个数量级（jpeg图片能压缩10倍基本上也看不出损失，而MPEG视频压缩近千倍，肉眼也分辨不出来是压缩过的）

视频压缩时，利用了信息的相关性，能够采用所谓的增量编码，而单一一张图片中，不具有太多的相关性可以利用。

利用相关性进行压缩编码：就好比连个“长得像”的信息，只要保留一个，对另一个，只要保留他们的差异，然后进行微调就OK了。

一般的视频一秒钟有30帧，高清的是60帧，4K的是120帧（甚至240帧）。每一帧视频之间的差距其实极小。对第一帧视频（主帧）进行全面编码，对于这一帧的压缩比，其实不会太高。但是对后面每一帧的视频，只要针对他们和上一帧的差异进行编码即可，这样除了主帧外，后面的每一帧的视频，其实编码的长度非常短，视频文件就显得比较小。（善用信息前后增量编码，达到大幅度压缩信息冗余的目的）

搜索引擎的索引——是把每一个单词在全部网页中出现的位置列出来。

信息的前后相关性，是信息本身固有的特征。绝大多数时候，世界的变化是渐进的，而不是完全随机的。

保守主义：其实就是坚持总体原则不变，不断做微调，达到渐进改变的目的。这样做比每一次重来，或者干脆达不成一致，其实效率反而高，因为我们的世界在绝大多数时候都是渐变的。

保守主义的做事态度，好处就是由我们整个世界渐变的特征决定的。所以很多时候，不需要推倒重来，只需要对变化进行一些修补就好了。而且这种做法成本很低。

如果想一次完成巨大的改变，常常会因为牵扯的利益太多，最后总是搁浅，永远改不了，结果反而是不进步。

在研究时间序列（time series）的时候，会把时间序列按三个角度进行解读：《时间序列分析》

固定趋势：序列有本来的上升趋势，（比如按线性上升或者下降）

周期效应：序列会按照一定的周期，周而复始出现

随机扰动：偏离均值的“残差”，真正价值的信息就藏在离散趋势当中

12 压缩比和失真率，如何取舍作平衡

香农第一定律：任何编码的长度都不会小于信息熵，也就是通常会 ≥ 信息熵，（最理想状态是等于）

如果编码长度太短，小于信息熵，就会出现损失信息的现象（信息失真）

引申：信息熵是告诉信息处理的人，做事情的边界，就如同不能试图逾越热力学第二定律发明永动机一样，大家在压缩信息时，如果想要无损，就不能逾越香农给的这个边界。

有损压缩，信息复原后，会出现一定程度的失真。

（1）做事的目的性很重要：因为很多时候没有最好的技术方案，只能根据场景找到合适的

（2）用的信息少，永远不可能做的和原来一样好；

信息的作用是消除不确定性，那么如果丢失了一部分信息，一定会增加不确定性。

（3）在压缩信息时，有时要看应用场景

只有针对某个场景的好的答案，而一切都是妥协的结果。

eg：语音通话时：牺牲一定的讲话人的口音，问题不大，因为它的目的是传递话音中的信息

声纹识别时：那个人说了什么不重要，重要的是知道他是谁；保留说话人本身的信息

那么高比例的信息压缩到底是压缩掉了什么信息？

压缩掉了高频信息。

（人通常能够听到20HZ——2W HZ的声音，但是人发音的范围只有300HZ-4K HZ左右，因此任何高于4K hz的语音信号就被过滤掉了。）在信息压缩中，任何与众不同的东西，总是被先压缩掉，因为对那些与众不同的东西做编码，占用的空间相对太多。所谓“枪打出头鸟”这个原则。

小花妹妹吖

发布了44 篇原创文章 · 获赞 46 · 访问量 3万+

私信关注

01

02

03

04