大数据十年回顾(2):当代理论与Google云

在这篇文章里,我们沿大数据发展时间线,从产品、行业、技术多角度讨论其发展脉络,究其发展承其脉络大家可以学习、借鉴、并最终推测未来大致走向。


watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDM4Njk2OQ==,size_16,color_FFFFFF,t_70


大数据当代


理论


人人皆言,是 Google 最早提出了云计算的概念。犹记得当年 Google 正值硅谷的当红炸子鸡,Google 的 CEO 乃 Eric Schmidt 老爷子,其本人在硅谷的搜索引擎大会上,首次提出了 Cloud Computing(云计算)概念时,何等意气风发,颇有指点江山激扬文字之意。彼时之 Google 乃最为高光之时刻,整个硅谷视之为“颠覆微软邪恶帝国”的自由灯塔,一时间无数文人骚客为此趋之若鹜、门庭若市。但 Google 虽贵为云计算概念所创者,似颇得云计算之精髓,但 Google 躺在其最大的广告现金流之上,类似于“站着就能把钱给挣回来”,似乎缺少开拓新 B 端市场的毒辣眼光,以为云计算乃“科技幻想,当前切勿有此执念”,和中外诸多头部互联网一起落入俗套,纷纷为云计算概念点赞却本身不落地推进执行。而恰恰相反的,仅仅在 Google 高调宣称云计算之概念的十天之后,亚马逊的云服务 EC2 就向公众开放提供试用。我一直揣测当时亚马逊 /AWS 其本身仍然认为此业务乃传统虚机租赁的延续,和云计算之类高大上的科幻名词尚有差距,自认为也不可一视同仁。但亚马逊理论上虽未创新但在商业市场孜孜不倦推动云计算产品、产业逐步落地。


回顾这段历史,我们得承认彼时亚马逊在技术领先性上和 Google 尚有差距,不能一概而论,但其市场先行、产品试探的商业做法无异于更加贴近于当前瞬息万变、波诡云谲的互联网时代下的企业服务。最终,Google 首提云计算之概念,但花落他家,亚马逊 /AWS 在市场上率先证明了云计算在商业市场上的可行性。对于云计算而言,我们可以说大家(包括 Google 开始)都没有为此真正相信过,以至于亚马逊 /AWS 最终靠商业行动力获得云计算欧美市场的定义权。因为相信所以看见,为亚马逊 /AWS 市场商业创新能力手工点赞!


暂且按下 Google 云计算不表,早期 Google 对业界另一大贡献即是大数据概念提出,同样不幸,Google 在大数据领域比云计算领域更是亲力亲为扮演活雷锋的角色。云计算中 Google 仅仅贡献科技概念和名词包装,早期市场方面全靠 AWS 一家将其发扬光大,Google 早期除了贡献这个概念本质上对于云计算商业和市场并无特殊贡献,相反是贡献了“技术指导商业”往往会拖累市场发展的反例:一个纯粹的技术公司承载不了云计算的商业梦想;而大数据领域,Google 不仅是贴钱、贴人地支持大数据发展,以至于最终开源大数据社区蓬勃发展成就一方霸业,但 Google 与之 Hadoop 社区,好比一匆匆过客,呆痴痴、傻乎乎地眼见诸多理论被开源“山寨”进而被其他云计算公司使用,毫无作为令人叹惋。于是乎,Google 在完美地错过了云计算的先发优势之后,顺便再进一步丢弃了主导开源大数据理论、技术以及市场彪炳千秋之机会。


篇幅有限,在此我们仅从两个维度切入讨论 Google 的三驾马车,同时顺带聊聊 Google 在大数据领域的先发后至,以及 Google 云计算的思考。


大数据开发技术群:957205962


大数据:退步还是进步?


讨论的第一个主题就是大数据相比于数据库在数据处理理论上是进步还是退化?笔者专门加上了一个“理论上”,因为前文已述,我等产品经理对于技术理论并无多大兴趣,特别对于技术领先型,如果无法转换为成本优势、性能优势、体验优势,此类技术之牛 X,于我不甚关心。我会直接从商业或市场上给出结论:大数据相比于数据库是市场进步,因为他们当前更加贴近市场对于大规模数据处理的诉求。


以 MapReduce 为例(有关 MapReduce 的概念解释,请参看下文的资料推荐,本文非技术入门科普文不讨论技术原理),当年 David J. DeWitt 以及 Michael Stonebraker 有关 MapReduce 的声讨檄文仍历历在目。2008 年,上述两位数据库大拿在 databasecolumn 网站发表《MapReduce: A major step backwards》(MapReduce: 一个巨大的倒退)基本上把互联网大数据派和数据库派之间的争吵推向一个高潮。任何一个稍懂数据库以及大数据的相关从业人员,都能够明确看到两者之间的严重分歧。于数据库人员而言:我派祖师爷数十年之心血积累,创建诸如关系模型、SQL 语言、ACID、存储优化等等理论精髓,方才以开山立派流芳百世,尔等小屁孩一登场啥都不懂就把祖师爷数十年积累贬的一文不值,砍得七零八落,你这个不是开历史倒车又是什么?数据库提了大致五点问题,摆出架势准备为数据处理的后生小辈谆谆教导一番:


在大规模的数据密集应用的编程领域,它是一个巨大的倒退


它是一个非最优的实现,使用了蛮力而非索引


它一点也不新颖——代表了一种 25 年前已经开发得非常完善的技术


它缺乏当前 DBMS 基本都拥有的大多数特性


它和 DBMS 用户已经依赖的所有工具都不兼容


笔者认为上面问题将 MapReduce 当前设计实现的弊端描述得恰如其分,一点不冤。看 MapReduce 论文,其核心实现基本上推翻之前数据库几乎所有优秀研究成果,而采用了最原始最简单最暴力的实现方式,将就能用,但实属不雅。在互联网业务之局外人看来,特别在于数据库这帮学院派人士看来,类似处理方式无异于鼠目寸光、饮鸩止渴、开历史之倒车。但身居互联网行业久矣,我深知互联网行事作风:快、糙、猛。互联网做事,能用就行,快速占领市场,管什么狗屁规矩。类似×××先生那句名言:不管白猫黑猫,抓住老鼠就是好猫。我管你们数据库之前如何设计精巧,今天要快速搞定我大 Google 大数据,为何不能做 trade-off。


从 MapReduce 之后,紧接着 2006 年 Google 再发大作《Bigtable: A Distributed Storage System for Structured Data》,BigTable 则是完全瞄准在线数据处理领域,讲述了用于存储和管理结构化数据的分布式存储系统,其建立在 GFS、MapReduce 等基础之上。该论文启发了后期的很多的 NoSQL 数据库,包括 Cassandra、HBase 等。如果说 MapReduce 完全专注于离线批量大数据处理 / 计算,则 BigTable 可以说和数据库完全在同一战场。可以想象适时诸多计算机学院派大牛当面对 BigTable 论文时必定摇头叹息:孺子不可教也。之后整个大数据行业借助 Hadoop 生态春风,蓬勃发展,至今十年有余,催生诸多云计算、大数据产品的市场。


在此,我想重申我的观点,大数据是大数据时代之下系统演化结果,是更加贴近大数据场景下用户处理数据的诉求,而非开历史倒车。大数据、大数据,我们讨论的就是一个“数据爆炸”时代下如何进行有效地大规模数据处理问题。这个问题是数据库之前未曾遇到、也未曾解决的特定问题,这些数据可能非结构化、非关系化,可能是半结构化的 Nginx 日志或者是用户上传的图片、再或者可能是整个城市大脑的交通探头高清视频数据。这些数据用传统的、狭义的关系型数据库无法解决,因此大数据方案舍弃了数据库模型中当前不适合上述数据处理的特性,牺牲某些功能从而换取大规模数据处理之能力。这是面向市场的、面向问题的、积极应对需求变化的技术做法,不教条也不做作。诚然,我相信大数据领域中某些领域,例如在处理关系数据事务型或者分析型场景下,可能仍然有大量数据库理论发挥作用,甚至看上去像一个数据库系统,如 Google Spanner;但在更大的数据处理与分析领域,我们将使用更多更分门别类的数据处理和存储方式,这类方式完全异于传统数据库,例如机器学习、例如图像识别。同时,我们可以预见,随着整个物理世界更多地数据化(上篇我们曾经讨论,凡是有利于加速信息生成、采集、传输、处理、反馈的技术都能够创造市场价值),而更多的物理社会数据化(IOT)、网络化(5G)势必造成更加复杂多样的数据处理需求类型,进而可以预见未来大数据处理会更加多样化,大数据分工于数据库系统,而接下来大数据同样内部面临巨大的分工:更多更垂直更定制化的大数据系统将源源不断产生,以应对快速爆炸的数据时代。社会分工理论在此同样具备适用性。


watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDM4Njk2OQ==,size_16,color_FFFFFF,t_70


Google 大数据:机遇和失误


前文已述,Google 确实在技术和理论高度创造了”大数据“的概念,Google 无偿将其技术框架理论贡献给开源社区,整体上有效促进大数据开源社区以及周边行业发展,以至于最终开源大数据社区蓬勃发展成就一方霸业,Google 勇气可嘉精神可叹。但至始至终,Google 在大数据领域除了成就其技术影响力美名之外,基本毫无所获,遑论从云市场大数据获益。Google 确实起了大早赶了晚集。究其原因,大概如下:


• 缺少对于云计算的重视和投入


试看当前的技术变现手段,最为直接即是云计算领域。任何一个技术领先的技术型产品,无论 IaaS、PaaS 甚至是 SaaS 的技术型产品,放置云上进行售卖乃变现之最快途径。Google 早年对此市场似乎有些晕头转向,毫无章法,以至于错失诸多大数据技术商业变现机会。


看最近 Google 似乎已经转换云市场策略,在 Google Cloud 上大量铺开其核心产品,但可惜由于开源大数据早已成为业界标准,Google 自行一套的大数据产品体系不一定能够讨得用户欢心。生不逢时。


• 缺乏对于开源社区的重视和投入


Google 以技术起家,十分重视技术影响力建设,以至于一直以来都是世界各大 IT 人员心中的技术灯塔。但从某种角度而言,技术影响力若无法变现,包括人才变现、营收变现,均是徒有虚名。Google 以三驾马车敲开大数据大门,虽打开一崭新行业,但概念虽新、落地很难,Google 显然缺乏让大数据在整个行业落地的动力和想法。同时,万万没想到开源社区竟然依样画葫芦”山寨“一把并最终形成 Hadoop 生态体系,并最终受众众多,用户甚广,时至今日 Hadoop 体系早已成为大数据行业事实标准,而其祖师爷 Google 未能实质获得任何可见好处,有点像祖师爷的技术被江湖小辈盗版后发家致富,最终饿死祖师爷了。试想,如果当年 Jeff Dean 公开 MapReduce、GFS 论文同时,直接开放一套剥开 Google 内部系统依赖的完整开源软件。以 Google 自身强大的技术号召力,开源社区绝对不敢造次、多半服从 Google 技术生态。由此 Google 基本控制了大数据生态社区,后续云计算变现顺水推舟。但,Google 错失定义开源大数据软件机会,一失足成千古恨。


不过,Google 何等聪明伶俐,早已洞察一切。现在的 Google,从 TensorFlow、Kubernetes、Beam 开始,在技术开放之初,发表论文之时,就顺便开源一套软件技术内核,并投入重金支持开源社区构建。对于 Google 而言,社区即标准、社区即流量、社区即商业,一切都可以导向未来的商业化变现,长线投资、长期发展;而对于开源社区,如此巨头花重金支持生态发展,拍手称赞何乐不为。各取所需各获所利。


Google 云的先发后至


前文已述 Google 在云计算方面的创新与失误,系列文章的下篇我们还会深入讨论云计算行业的林林总总。但此刻我们更多关注与盘点 Google 云的失误。Google 云在笔者看来犯了数个错误,这些错误在聪明如 Google 看来一定早已知晓,但种种原因改变的进展迟缓,特别是相对于亚马逊 /AWS 而言,更是显得后知后觉:


Google 云是服务 B 端市场的,但明显 Google 云似乎一直没有意识到其主要客户是 B 端企业。不得不承认,Google 公司围绕消费者的 C 端产品固然强大,但 B 端产品思路以及市场策略实属抽风。Google 一直在强调自己的云标签是“人工智能”,试图通过拉入 AlphaGo 等重磅公关事件来提升用户对于 Google 云的认可度。AlphaGo 火了人工智能,也顺便帮 Google 的 AI 能力大大 PR 了一把,但明显这部分流量并未给 Google 云带来有效的转化,倒是后边大量云计算厂商通过开源深度学习引擎再次“捡漏”。另外,试问人工智能能够带来多少计算资源消耗,人工智能又能够提升多少云计算客户基数。很多情况下,在机器学习领域,一次数据 Training 足够、使用开源软件足够,小公司暂时没有能力也没有数据进行 Training、大公司有数据但大都自行部署开源机器学习引擎自己构建机器学习平台,何来大客户、何来大营收?人工智能在当前整个云计算生态以及大数据生态最多算个云计算公司产品黏性,再不济就只能是市场噱头,叫好不叫座。 按照企业基因学说,天生缺 toB 基因的 Google,想在云计算方面要靠全方位无死角地伺候 B 端客户,试看 Google 天生自带高贵基因,似乎难以铺广开来。


Google 云计算是服务年薪百万级的 Google 员工,而非行业普通开发者水平;服务的是数亿用户的业务规模,而非行业普通业务水平。早期大量 Google 云产品均是服务内部的产品在云上的“云化版”,这类系统天生有个悖论,论稳定性、论成熟性、论领先性,这类系统绝对无出其右,但高射炮打蚊子,各位看官可要清楚 Google 云平台面对的企业内部员工可是年薪百万级别起的软件工程师,试问这类工程师其专业水平可是整个行业平均水平?Google 云平台服务的是 Google 内部业务技术开发水平,这些业务方动辄数亿用户、动辄 PB 数据、动辄数百人团队,试问这类业务规模可是整个行业平均规模?Google 云拿一个超越于当前年代的产品,试图让用户搬云迁站,其改造成本有多高? 其维护成本有多高?有多少用户愿意使用类似产品,或者接受如此改造?常言道,步子迈大了容易扯着 X,话糙理不糙。


尊重市场是任何一家商业化公司活下来的最高法则。但令人啧啧称奇的是,诸如强大如 Google、聪明如 Google 仍然在不停犯类似错误。例如,不可能因为 Google 内部广泛采用 BigTable 因此就要在云上劝说用户放弃使用 Mysql 转而投入使用 BigTable。人人皆知从一个关系型数据库迁移到 NoSQL 数据库的改造难度,势必极大增加用户改造上云成本。我们一定是要让用户迁云过程中进行全面的代码改造再行上云,还是先将客户收入囊中循循善诱、徐徐图之。这个是技术导向和市场导向两类不同思路,麻烦就在大量云计算公司往往有技术导向的可能性以及倾向性。当前,整个云计算市场在烧钱争抢市场的阶段,犹如当年快的与滴滴烧钱培养用户打车习惯的阶段,流量为王、用户基数为王、最大规模占据市场份额为王。任何成功商业模式均需建立在庞大的市场规模之上,无规模不商业,当用户基数一到、资源消耗一到,后续任何的服务增值、利润打造、云市场买卖平台构建均基于此可以做长线演化。但用户基数是 0 到 1 的问题,此问题不解何来讨论商业模式?

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDM4Njk2OQ==,size_16,color_FFFFFF,t_70


Google 云在今年四月适才刚刚举办了 Google Cloud NEXT 2019,InfoQ 随即给出了一个忍俊不禁的报道《谷歌 Cloud NEXT 重磅盘点:终于想起云做的是 ToB 生意》,看得出来诸位 IT 同仁对于之前 Google 云的评价。


大数据开发技术群:957205962



猜你喜欢

转载自blog.51cto.com/14309943/2391636