云计算、大数据和人工智能的关系能讲明白了,就这么回事!

一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。

一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。

云计算最初的目标是对资源的管理,管理的主要是计算资源、网络资源、存储资源三个方面。

第一个阶段是物理设备时期。这个时期客户需要一台电脑,我们就买一台放在数据中心里。

物理设备当然是越来越牛:

例如服务器,内存动不动就是百 G 内存。

例如网络设备,一个端口的带宽就能有几十 G 甚至上百 G。

例如存储,在数据中心至少是 PB 级别的(一个 P 是 1000 个 T,一个 T 是 1000 个 G)。

然而物理设备不能做到很好的灵活性:

首先是它缺乏时间灵活性。不能够达到想什么时候要就什么时候要。比如买台服务器、买个电脑,都要有采购的时间。

如果突然用户告诉某个云厂商,说想要开台电脑,使用物理服务器,当时去采购就很难。与供应商关系好的可能需要一个星期,与供应商关系一般的就可能需要采购一个月。

用户等了很久电脑才到位,这时用户还要登录上去慢慢开始部署自己的应用。时间灵活性非常差。

其次是它的空间灵活性也不行。例如上述的用户需要一个很小很小的电脑,但现在哪还有这么小型号的电脑?不能为了满足用户只要一个 G 的内存、80G 硬盘的,就去买一个这么小的机器。

但是如果买一个大的,又会因为电脑大,需要向用户多收钱,可用户需要用的只有那么小一点,所以多付钱就很冤。

在 PaaS 层中一个复杂的通用应用就是大数据平台。大数据是如何一步一步融入云计算的呢?

如果你不在一个大城市,一个普通的学校的图书馆加起来也没几个书架,是后来随着信息化的到来,信息才会越来越多。

首先我们来看一下大数据里面的数据,就分三种类型:

结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:×××,民族:汉,性别:男,这都叫结构化数据。

非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页,有时候非常长,有时候几句话就没了;例如语音,视频都是非结构化的数据。

半结构化数据:是一些 XML 或者 HTML 的格式的,不从事技术的可能不了解,但也没有关系。

其实数据本身不是有用的,必须要经过一定的处理。例如你每天跑步带个手环收集的也是数据,网上这么多网页也是数据,我们称为 Data。

数据本身没有什么用处,但数据里面包含一个很重要的东西,叫做信息(Information)。

数据十分杂乱,经过梳理和清洗,才能够称为信息。信息会包含很多规律,我们需要从信息中将规律总结出来,称为知识(Knowledge),而知识改变命运。

信息是很多的,但有人看到了信息相当于白看,但有人就从信息中看到了电商的未来,有人看到了直播的未来,所以人家就牛了。

如果你没有从信息中提取出知识,天天看朋友圈也只能在互联网滚滚大潮中做个看客。

有了知识,然后利用这些知识去应用于实战,有的人会做得非常好,这个东西叫做智慧(Intelligence)。

有知识并不一定有智慧,例如好多学者很有知识,已经发生的事情可以从各个角度分析得头头是道,但一到实干就歇菜,并不能转化成为智慧。

而很多的创业家之所以伟大,就是通过获得的知识应用于实践,最后做了很大的生意。

所以数据的应用分这四个步骤:数据、信息、知识、智慧。

最终的阶段是很多商家都想要的。你看我收集了这么多的数据,能不能基于这些数据来帮我做下一步的决策,改善我的产品。

例如让用户看视频的时候旁边弹出广告,正好是他想买的东西;再如让用户听音乐时,另外推荐一些他非常想听的其他音乐。

大数据需要云计算,云计算需要大数据

说到这里,大家想起云计算了吧。当想要干这些活时,需要很多的机器一块做,真的是想什么时候要就什么时候要,想要多少就要多少。

例如大数据分析公司的财务情况,可能一周分析一次,如果要把这一百台机器或者一千台机器都在那放着,一周用一次非常浪费。

那能不能需要计算的时候,把这一千台机器拿出来;不算的时候,让这一千台机器去干别的事情?

谁能做这个事儿呢?只有云计算,可以为大数据的运算提供资源层的灵活性。

而云计算也会部署大数据放到它的 PaaS 平台上,作为一个非常非常重要的通用应用。

因为大数据平台能够使得多台机器一起干一个事儿,这个东西不是一般人能开发出来的,也不是一般人玩得转的,怎么也得雇个几十上百号人才能把这个玩起来。

所以说就像数据库一样,还是需要有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的解决方案了。

一个小公司需要大数据平台的时候,不需要采购一千台机器,只要到公有云上一点,这一千台机器都出来了,并且上面已经部署好了的大数据平台,只要把数据放进去算就可以了。

云计算需要大数据,大数据需要云计算,二者就这样结合了。

虽说有了大数据,人的欲望却不能够满足。虽说在大数据平台里面有搜索引擎这个东西,想要什么东西一搜就出来了。

但也存在这样的情况:我想要的东西不会搜,表达不出来,搜索出来的又不是我想要的。

例如音乐软件推荐了一首歌,这首歌我没听过,当然不知道名字,也没法搜。但是软件推荐给我,我的确喜欢,这就是搜索做不到的事情。

当人们使用这种应用时,会发现机器知道我想要什么,而不是说当我想要时,去机器里面搜索。这个机器真像我的朋友一样懂我,这就有点人工智能的意思了。

人们很早就在想这个事情了。最早的时候,人们想象,要是有一堵墙,墙后面是个机器,我给它说话,它就给我回应。

如果我感觉不出它那边是人还是机器,那它就真的是一个人工智能的东西了。

让机器学会推理怎么才能做到这一点呢?人们就想:我首先要告诉计算机人类推理的能力。你看人重要的是什么?人和动物的区别在什么?就是能推理。

要是把我这个推理的能力告诉机器,让机器根据你的提问,推理出相应的回答,这样多好?

其实目前人们慢慢地让机器能够做到一些推理了,例如证明数学公式。这是一个非常让人惊喜的一个过程,机器竟然能够证明数学公式。

但慢慢又发现这个结果也没有那么令人惊喜。因为大家发现了一个问题:数学公式非常严谨,推理过程也非常严谨,而且数学公式很容易拿机器来进行表达,程序也相对容易表达。

然而人类的语言就没这么简单了。比如今天晚上,你和你女朋友约会,你女朋友说:如果你早来,我没来,你等着;如果我早来,你没来,你等着!

这个机器就比较难理解了,但人都懂。所以你和女朋友约会,是不敢迟到的。

人工智能需要大数据,人工智能可以做的事情非常多,例如可以鉴别垃圾邮件、鉴别×××暴力文字和图片等。

这也是经历了三个阶段的:

依赖于关键词黑白名单和过滤技术,包含哪些词就是×××或者暴力的文字。随着这个网络语言越来越多,词也不断地变化,不断地更新这个词库就有点顾不过来。

基于一些新的算法,比如说贝叶斯过滤等,你不用管贝叶斯算法是什么,但是这个名字你应该听过,这是一个基于概率的算法。

基于大数据和人工智能,进行更加精准的用户画像、文本理解和图像理解。

由于人工智能算法多是依赖于大量的数据的,这些数据往往需要面向某个特定的领域(例如电商,邮箱)进行长期的积累。

如果没有数据,就算有人工智能算法也白搭,所以人工智能程序很少像前面的 IaaS 和 PaaS 一样,将人工智能程序给某个客户安装一套,让客户去用。

因为给某个客户单独安装一套,客户没有相关的数据做训练,结果往往是很差的。

但云计算厂商往往是积累了大量数据的,于是就在云计算厂商里面安装一套,暴露一个服务接口。

比如您想鉴别一个文本是不是涉及×××和暴力,直接用这个在线服务就可以了。这种形势的服务,在云计算里面称为软件即服务,SaaS (Software AS A Service)

于是工智能程序作为 SaaS 平台进入了云计算。

基于三者关系的美好生活

终于云计算的三兄弟凑齐了,分别是 IaaS、PaaS 和 SaaS。所以一般在一个云计算平台上,云、大数据、人工智能都能找得到。

一个大数据公司,积累了大量的数据,会使用一些人工智能的算法提供一些服务;一个人工智能公司,也不可能没有大数据平台支撑。

所以,当云计算、大数据、人工智能这样整合起来,便完成了相遇、相识、相知的过程。

猜你喜欢

转载自blog.51cto.com/14214237/2380366