1.信息论①

信息时代最大的特征是不确定性。

世界上的知识可以分为道和术两个层面

世界上任何一个探索者都需要清楚三件事:我们现在的位置、我们的目标、通向目标的道路

(一)信息产生

在面对大量信息时,排除噪音,提取利用有效信息,科学做决策的能力

(二)信息传播

向外界传递信息时,平衡分配有限资源,增加沟通带宽,放大影响力的能力

(三)信息应用

看懂信息应用的逻辑和通信发展的趋势,提前抓住新机遇的能力

01

(1)信息很重要,四两拨千斤的作用。信息作用的大小和信息量有关。

(2)信息量和不确定性有关,大家都知道的事,就没有什么信息量了。

(3)对一个未知系统(黑盒子)所作出的估计和真实情况的偏离,就是信息的损失,偏离越多损失越大。

02

 普朗克时间是能够度量的最小时间单位,大约是10的负44次方秒

信息和能量一样,都是宇宙本身固有的特性。世界上没有绝对的可靠,只有可靠性的高和低,信号和噪音比率的高和低。

从信息论的角度看,信息的可靠性——置信度。

好的论文,一方面需要信息量高,另一方面需要在信息传播上效率高。讲演时要精简,要保证对方听懂自己最核心的想法。

03

当下常见且最成功的四类应用:

(1)解决人工智能问题,把那些过去看似需要人脑推理的问题,变成今天基于大数据的计算问题(语音识别——机器翻译)

利用数据(信息)消除不确定性——香农信息论的本质,大数据思维的科学基础

(2)利用大数据,进行精准的服务

摸索商业趋势:公司从重研究方法到重数据收集的转变

(3)动态调整我们做事情的策略

足够多大数据可以帮助我们动态匹配最佳结果

(4)发现原来不知道的规律

互信息理论

04

对于一条信息,重要的是找出其中有多少信息量,要搞清楚“信息量”,就要对信息进行量化的度量。

香农最大的贡献在于找到了这个“砝码”——比特;就是将信息的量化度量和不确定性联系起来。

比特:如果一个黑盒子中有A、B两种可能性,他们出现的概率相同,那么要搞清楚到底是A还是B,所需要的信息量,就是1比特。如果P(A)>P(B),那么解密它们所需要的信息<1bit

 

05信息编码

(1)对数字的各种编码是等价的,无非是平衡编码复杂性和编码长度之间的关系

在一个编码系统中解决不了的问题,换一个系统同样解决不了

香农第一定律:只要编码设计得足够巧妙,就可以找到最短编码

编码长度 ≥ 信息熵(信息量)/每一个码的信息量

(2)人类的不平等是从文字开始的。在任何历史阶段,谁控制了信息,谁就是世界的主人。对于个体来讲,改变自身获取信息的能力,要改变整个社会的不平等容易得多。

06 有效编码

好的编码第一个特点——便于区分不同的信息

五个原则:

(1)明确:沟通的核心,只有一一表达的明确,才能保证对方不误解

(2)诚实:能够明确表述的基础

(3)勇气:代表对一件事的态度确定

(4)责任:对一件事要有所谓

(5)同理心

信息编码基本原则:

(1)“易识别”,有效性;(凡事过犹不及)

(2)有效性:

(3)有效编码:让理论最佳值在应用中落地。学以致用。

eg:有64瓶药,其中63瓶是无毒的,一瓶是有毒的。如果做实验的小白鼠喝了有毒的药,3天后会死掉,当然喝了其它的药,包括同时喝几种就没事。现在只剩下3天时间,请问最少需要多少只小白鼠才能试出那瓶药有毒?

答:64选1的任务,只需要log 64=6bit的信息;每一只老鼠提供了1bit的信息。

采用大量用户反馈信息决定产品的设计和技术方案

 

07最短编码:利用哈夫曼编码原理投资

MIT教授哈夫曼发明的,哈夫曼编码

(1)香农第一定律,可以得出编码长度是有个理论最小值的,从数学上可以证明哈夫曼的编码方法是最优化的。

(2)哈夫曼编码从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最大的信息。对于资源如何分配,哈夫曼给出一个原则:一条信息编码的长度和出现概率的对数成正比

(3)在现实生活中,很多信息的组合,比单独一条信息,概率分布差异更大,因此对他们使用哈夫曼编码进行信息压缩,压缩比会更高。

通过每一次双倍砸钱(double down),把最多的钱投入到最容易成功的项目上,

就好比用圆规画圆,一方面有一个扎的很深的中心,另一方面有足够广的很浅的覆盖面。

tip:

①:从来不排斥尝试新东西,这样不会失去机会,我尝试过的各种事情远比外界知道的多,只是绝大部分失败了。我没有继续罢了,大家也就无从知晓了。

②:对于花一些精力,看样子做不成的事情,坚决做减法止损。(可以把最多的资源投入到我擅长的,有兴趣的,可能也是成功率最高的事情上。

 

08 矢量化

信息的矢量数字化(VQ)——矢量化

信息越多,需要的编码越多,这是文明自然演变不可避免的过程。

计算机中使用的字体有 位图(bitmap)和矢量图 2种。位图一经放大就会出现锯齿,而矢量图随便放大,都很清晰。

 

09冗余度

在信息论中,用冗余度对信息的这种“密集”和“稀疏”程度进行描述。

冗余度=(信息编码的长度-一条信息的信息量)/信息的编码长度

如果冗余度太低,会严重影响接收信息的速度

冗余度的好处:易理解、消歧义、容错性

①便于理解   ②在语言上消除了很多歧义性 ③带来信息的容错性

坏处:

①直观的感受就是在存储和传递信息时的浪费。

②如果信息中混有噪音,过多没用的信息可能会导致错误

无论是读书还是学习,都要想办法把书读薄,也就是去掉冗余的信息。要读出主线,将一些细节过滤掉。

10 等价性

傅里叶变换

很多时候,一种原始的信息,他们虽然里面有很多冗余成分,但是很难直接压缩掉。但我们可以将它们转化为容易压缩的等价的信息,再进行压缩,然后进行存储和传输。在使用和接收到被压缩的等价信息后,先进行解压,再恢复原来的信息。

善用等价信息,是每一个人都必须掌握的工作技巧。

 

11 信息增量:信息压缩中的保守主义原则

主帧微调      增量编码

信息的压缩:视频的压缩比要远比图片的高很多;一般会差两个数量级(jpeg图片能压缩10倍基本上也看不出损失,而MPEG视频压缩近千倍,肉眼也分辨不出来是压缩过的)

视频压缩时,利用了信息的相关性,能够采用所谓的增量编码,而单一一张图片中,不具有太多的相关性可以利用。

利用相关性进行压缩编码:就好比连个“长得像”的信息,只要保留一个,对另一个,只要保留他们的差异,然后进行微调就OK了。

一般的视频一秒钟有30帧,高清的是60帧,4K的是120帧(甚至240帧)。每一帧视频之间的差距其实极小。对第一帧视频(主帧)进行全面编码,对于这一帧的压缩比,其实不会太高。但是对后面每一帧的视频,只要针对他们和上一帧的差异进行编码即可,这样除了主帧外,后面的每一帧的视频,其实编码的长度非常短,视频文件就显得比较小。(善用信息前后增量编码,达到大幅度压缩信息冗余的目的)

搜索引擎的索引——是把每一个单词在全部网页中出现的位置列出来。

信息的前后相关性,是信息本身固有的特征。绝大多数时候,世界的变化是渐进的,而不是完全随机的。

保守主义:其实就是坚持总体原则不变,不断做微调,达到渐进改变的目的。这样做比每一次重来,或者干脆达不成一致,其实效率反而高,因为我们的世界在绝大多数时候都是渐变的。

保守主义的做事态度,好处就是由我们整个世界渐变的特征决定的。所以很多时候,不需要推倒重来,只需要对变化进行一些修补就好了。而且这种做法成本很低。

如果想一次完成巨大的改变,常常会因为牵扯的利益太多,最后总是搁浅,永远改不了,结果反而是不进步。

在研究时间序列(time series)的时候,会把时间序列按三个角度进行解读:《时间序列分析》

固定趋势:序列有本来的上升趋势,(比如按线性上升或者下降)

周期效应:序列会按照一定的周期,周而复始出现

随机扰动:偏离均值的“残差”,真正价值的信息就藏在离散趋势当中

12 压缩比和失真率,如何取舍作平衡

香农第一定律:任何编码的长度都不会小于信息熵,也就是通常会 ≥ 信息熵,(最理想状态是等于)

如果编码长度太短,小于信息熵,就会出现损失信息的现象(信息失真)

引申:信息熵是告诉信息处理的人,做事情的边界,就如同不能试图逾越热力学第二定律发明永动机一样,大家在压缩信息时,如果想要无损,就不能逾越香农给的这个边界。

有损压缩,信息复原后,会出现一定程度的失真。

(1)做事的目的性很重要:因为很多时候没有最好的技术方案,只能根据场景找到合适的

(2)用的信息少,永远不可能做的和原来一样好;

         信息的作用是消除不确定性,那么如果丢失了一部分信息,一定会增加不确定性。

(3)在压缩信息时,有时要看应用场景

         只有针对某个场景的好的答案,而一切都是妥协的结果。

eg:语音通话时:牺牲一定的讲话人的口音,问题不大,因为它的目的是传递话音中的信息

        声纹识别时:那个人说了什么不重要,重要的是知道他是谁;保留说话人本身的信息

那么高比例的信息压缩到底是压缩掉了什么信息?

压缩掉了高频信息。

(人通常能够听到20HZ——2W HZ的声音,但是人发音的范围只有300HZ-4K HZ左右,因此任何高于4K hz的语音信号就被过滤掉了。)在信息压缩中,任何与众不同的东西,总是被先压缩掉,因为对那些与众不同的东西做编码,占用的空间相对太多。所谓“枪打出头鸟”这个原则。

发布了44 篇原创文章 · 获赞 46 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/WY_star1/article/details/100927254