数学之美阅读笔记(2)

版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/u011826404/article/details/70843764

延续上一篇内容,《数学之美》这本书我想吴军博士的初衷是非科班也能读懂,书中对数学知识的解释极为详细,所以我只将书中的核心思想抽取出来,方便今后很容易Get到点,有些篇章为介绍性文字,我也把重要的鸡汤拿出来喝一喝,为了将篇幅控制在可读范围内,每篇包含7个模块内容。

1.查询和网页的相关性

上篇中已经提到,网页的排名一般取决于两个因素:网页的质量网页的相关性,PageRank就是衡量网页的质量一种经典方法,这里我们将介绍另一个关键技术:如何度量查询和网页的相关性

首先人容易想到:出现搜索关键字次数多的网页相关性应该高,但这时篇幅短的网页就不干了,因此需要根据网页的长度对关键词次数进行归一化,这里就引出了之前常见的“单文本频率”(Term Frequency,简称TF),即除以网页的总字数。一般查询的关键词不止一个,最简单的是使用所有查询关键词的TF直接相加得到相关性,但这时又会出现问题,这些关键词的权重不应该一样,例如有些介词等TF大但对于相关性没有任何作用,因此应该将一些无关紧要的词权值设置为0,同时一个词的预测能力越强,赋予的权重应该越大,例如搜索:学生和敖威,显然自己名字的预测能力强,因为出现敖威两个字的网页很少(还是自己太菜…),一下子就能找到想要的网页。因此定义:

单文本频率(TF):网页中关键词出现的次数 / 网页的总字数。
逆文本频率指数(IDF): 若关键词w在Dw个网页中出现过,Dw越小,其权值应该越大, IDF=log2(D / Dw)(D表示全部网页数)。

这样所有查询关键词和网页相关性的计算公式就不是简单的相加,而是加权求和:

这里写图片描述

这就是声名远扬的TF-IDF计算公式,TF-IDF的概念被公认为信息检索中最重要的发明,有了这个我们就很容易度量关键词和网页的相关性。

2.Google AK-47

1.许多失败并不是因为人不优秀,而是做事的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。
2.改进方法都要能说清楚理由。

3.余弦定理与新闻分类

说起余弦定理与新闻分类,就想起了当初大一时的一位小伙伴拿着这个去糊弄APP创意大赛的评审,还忽悠到了一个三等奖。回到正题,新闻的自动分类是各大新闻网站的关键技术,即将互联网上发布的各种新闻按类别聚合在一起,这时需要计算两篇新闻之间的相似性。

词是传播新闻的载体,同一类新闻的用词都是相似的,如果使用一个词库,那一篇新闻则可以变成一个特征向量(包含为1,不包含为0),例如新闻只有两个词“数学 美丽”,则其对应的特征向量为…0 0 0 1 0 0 0 1 0 0 0…(特征向量长度为词库的大小),但并不是所有词的重要程度都一样,这时候我们前面定义的TF-IDF就派上用场了,现在我们并不是简单地用0和1来表示一个词,而是用计算词的TF-IDF值。

这里写图片描述

扫描二维码关注公众号,回复: 3295713 查看本文章

这时一篇新闻就成为了一个向量,向量中的每个数值代表它所对应的词对这篇新闻主题的贡献程度,两篇新闻主题是否接近,取决于这两个特征向量是否长的像,而计算向量之间的距离,余弦定理千呼万唤始出来~

这里写图片描述

有了两篇新闻之间相似性的度量方法,再回到新闻分类上,若现在我们已经有了各种类别新闻的特征向量模板,则对于一条新闻,只需看它与哪个模板的余弦距离最小归类即可。若事先没有各种类别的标准模板,则可以计算所有待分类新闻两两之间的余弦值,将其中与每个新闻余弦距离最近的新闻合并为一个小类,再计算小类新的特征向量,一直向上迭代合并,设置一个到合适的余弦距离阈值停止迭代。

这里写图片描述

事实上,当我们将新闻数值化以后,新闻的分类就变成了聚类任务,有特征向量模板的分类实质上就是聚类中心不变的K-Means,而不断向上迭代合并实质上就是层次聚类法的思想。

4.两个分类问题与奇异值分解

主成分分析(PCA)和矩阵的奇异值分解(SVD)可以说是矩阵论的经典应用,之前花了几个日夜才弄出点头绪。由上面我们知道:一篇文档可以表示成一个特征向量,如果有词库大小为M,N篇文档,则可以表示成一个词项-文档矩阵(M*N)。

这里写图片描述

矩阵的奇异值分解将原矩阵分解为三个矩阵的乘积:

这里写图片描述

简单来理解,SVD就是在两个维度上的PCA,X矩阵是关于词的主成分,将词项进行合并压缩;Y矩阵是关于文档的主成分,将文档进行合并压缩。合并压缩可以理解为将一些相似的合并在一起,冗余和无关紧要的去掉。这样X矩阵就是对词义分类的结果,Y矩阵就是对文档分类的结果,一次奇异值分解就可以同时完成近义词分类和文档的分类,另外还可以得到每个主题类和每个词义类的相关性。

(吴军老师这里可能是写反了,看到网上书友同样的困惑才敢这样说,毕竟高下立判~.~orz)

5.信息指纹及其应用

正如人有其独特的指纹一样,一段信息也应该有它的“指纹”作为它的唯一识别。在网络爬虫中,我们要将下载过的URL使用散列表记录下来,这时问题来了,若直接将URL以字符串(整数)的形式储存,既浪费储存空间,又耗费大量的查找时间,但若将URL转化为一个随机数,这时效率将大大提升,这个随机数就称为信息指纹。产生信息指纹的关键算法称为伪随机数产生算法,它可以将任意长的整数转换成特定长度的伪随机数。

信息指纹的一个特征是不可逆性,无法根据信息指纹推出原有信息,就比如:信息指纹可以判断两个URL是否相同,但是无法复原URL信息。常用的算法有MD5或SHA-1标准,生活中最常见的应用便是登录密码,出于安全性服务器数据库中储存的都是加过密的密码,当你输入登录密码后,它会再将这个密码加密一次,然后再比对与原有的加密密码是否相同,这样即便非大神级黑客攻击了数据库,也无法对密码复原。

由于信息指纹的独特性,它可以很容易运用到相似性判定中,例如判断两个集合是否相同,只需将各个集合中元素的信息指纹相加,若两个集合的信息指纹和相等,则两个集合等价。YouTube的反盗版则是分别提取两段视频的关键帧,计算这些关键帧的信息指纹,变成判定两个集合是否相等的问题。

简单来理解信息指纹,就是将一段信息(文字、图片、视频、音频)随机地映射到一个二进制高维空间中的一个点上,其坐标便是一串二进制数字,只要处理得好,这串二进制数便成为了原来信息独一无二的信息指纹。

6.搜素引擎的反作弊

我们已经知道网页的排名取决于两个因素:网页的质量与网页的相关性,这时就会有人在专门在这上面做文章。早期最常见的作弊方法是重复关键词,由于IDF是一个固定值,TF随机关键词频次的增加不断增大,那如果将一个网页反复地刷关键词,这样网页的相关性就会大大提升。

有了网页排名(PageRank)之后,作弊者发现如果一个网页被其它网页链接的越多,则其质量越高,这样就有了专门卖链接的生意,比如建立成千上万的空壳子网站,上面只放客户网页的链接。搜索引擎反作弊的工作便是尽可能消除这些干扰,使得排名公正。

7.最大熵模型

对于一个随机变量X,当X满足均匀分布时,其信息熵最大。最大熵模型的原则是:1.承认已知事物(知识);2.对未知事物不做任何假设,没有任何偏见。 在这样情况下,概率分布最均匀,概率分布的信息熵最大,因此我们将其称为“最大熵模型”。

这里写图片描述

最大熵模型在形式上十分简单,但是在参数的训练上十分复杂,且涉及到诸多的数学知识,这里不能再深入了…

(具体可看July和邹博的东西)

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u011826404/article/details/70843764