如何给普通人解释机器学习是什么

数据挖掘只是机器学习中涉猎的领域之一,机器学习还有模式识别、计算机视觉、语音识别、统计学习以及自然语言处理等,而在目前机器学习中,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。这里也抛砖引玉说一点自己所通俗易懂了解的一些机器学习的知识,相对机器学习有一个入门或者更深入的认识可以在网上找一些公开看,从我目前接触的比较浅显易懂的是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任:Andrew Ng(吴恩达)关于机器学习的公开课。

首先,机器学习即 ML,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习作为人工智能研究较为年轻的分支,机器学习也分监督学习和非监督学习,同时随着人工智能越来越被人们重视和越热,深度学习也是机器学习的一个新的领域。

那么,我们要问,机器学习能帮我们干什么?

可以帮我们抽象一些因子的关联系(非监督学习)

这样的案例莫过于数据挖掘中最经典的案例之一啤酒与尿布的故事

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

可以帮我们做一些海量数据的文本分类甚至语义分析(监督学习)

在文类信息特征提取中,向量空间模型(VSM: Vector Space Model),把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。它特征词条(T1 ,T2 ,…Tn)及其权值Wi来表征目标文本。在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取。

比如基于NLP的朴素贝叶斯进行文本分类

那么将贝叶斯函数利用到工作中,它能帮助我们干什么呢?如果生活中你的工作邮件经常收到各种垃圾邮件,对你来说如果能够有效的拦截和识别这些垃圾邮件是不是很好的一件事,那么就有了以下做法:

我们现在要对邮件进行分类,识别垃圾邮件和普通邮件,如果我们选择使用朴素贝叶斯分类器,那目标就是判断P(“垃圾邮件”|“具有某特征”)是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封作为训练集。需要判断以下这个邮件是否属于垃圾邮件:

“我司可办理正规发票(保真)17%增值税发票点数优惠!”

也就是判断概率P(“垃圾邮件”|“我司可办理正规发票(保真)17%增值税发票点数优惠!”)是否大于1/2。

咳咳,有木有发现,转换成的这个概率,计算的方法:就是写个计数器,然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊,具体点说:

如果真的这么做了,很多人会觉得如果这样一个句子去做语料库是不是太low了,傻子才会将文本信息一句不差的发给所有人或者每次都是同样的作弊特征。本身我们能够穷举的训练集是有限的,而句子的可能性则是无限的。那么,我们就得找到可替代的方案——切词/分词

如果以句子作为训练集,可能它的组合是无限,但是词语的搭配都是按照语义去搭配的,我们汉语常用字2500个,常用词语也就56000个。那么我们再拆词的时候就能够抓住词的作弊特征。

比如“我司可办理正规发票,17%增值税发票点数优惠!”,这句话就比之前那句话少了“(保真)”这个词,但是意思基本一样。那我们可以作为训练集的样本数量就会增加,这就方便我们计算了。

我们以词作为特征去提取作弊特征这样我们可供训练和提取的特征明显多了。eg:“正规发票”、“增值税”可以作为一个单独的词语,如果在工作中再建立体套豁免机制豁免本公司白名单用户,是不是这些词明显能够提高垃圾邮件的拦截。

句子“我司可办理正规发票,17%增值税发票点数优惠!”就可以变成(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”))。

我们观察(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),这可以理解成一个向量:向量的每一维度都表示着该特征词在文本中的特定位置存在。这种将特征拆分成更小的单元,依据这些更灵活、更细粒度的特征进行判断的思维方式,在自然语言处理与机器学习中都是非常常见又有效的。

因此贝叶斯公式就变成了:

我们找了个最简单常见的例子:垃圾邮件识别,说明了一下朴素贝叶斯进行文本分类的思路过程。基本思路是先区分好训练集与测试集,对文本集合进行分词、去除标点符号等特征预处理的操作,然后使用条件独立假设,将原概率转换成词概率乘积,再进行后续的处理。

贝叶斯公式 + 条件独立假设 = 朴素贝叶斯方法

物以类聚、人以群分-聚类分析(非监督学习)

经常我们会听到一句俗话:物以类聚,人以群分,聚类分析就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。但是聚类和分类不同的是,分类是监督学习;聚类是非监督学习 ,聚类所要求划分的类是未知的。

聚类分析被应用于很多方面,在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。

比如利用word2vec对关键词进行聚类,加入我们要知道新闻的推荐和关键词有什么联系?首先析,我们收集一批数据,这里不可能一下子就得到所有词的集合,最常见的方法是自己写个爬虫去收集网页上的数据,这里的数据应该说越多越好。其次,我们开始分词,将一些非文本的信息去掉,这样有助于对文本聚类的时候不会出现干扰项。然后利用谷歌开源的word2vec算法进行聚类分析,得到如下;

(图片来源于Felven个人博客,由于word2vec计算的是余弦值,距离范围为0-1之间,值越大代表这两个词关联度越高,所以越排在上面的词与输入的词越紧密。)

此外,还有回归分析(线性和非线性回归分析)、主成分分析(降维分析)等,都是机器学习中必不可少的模型分析。总之,机器学习从20世纪50年代中叶到60年代中叶到现在不断的在拓展新的领域,可能随着人工智能的兴起,机器学习也将大放异彩!

原文地址:https://baijiahao.baidu.com/s?id=1560315386534131&wfr=spider&for=pc

猜你喜欢

转载自blog.csdn.net/qq_32649581/article/details/83586866