储存,区块链最佳落地场景

转自:小雨智媒

13607604-a60f8223d317b95b

第34期分享嘉宾

王东临,YottaChain/书生集团创始人、首席科学家,是国际级IT科学家,中国知名企业家,同时有丰富的社会治理经验。 王东临具有20年+的密码学应用经验和将近10年的分布式存储经验,均达到世界顶级水平,被评为中国十大青年科学家(中国科协每年从全国各行各业中总共评十个,政治局委员颁奖)、首届中国杰出工程师(科技部评选,软件互联网行业唯一入选)、中国软件十大杰出青年(工信部和团中央联合评选,唯一全票当选),先后发明十多项国际领先技术,创造多个中国IT业的里程碑,拥有100多项专利。 王东临是连续成功创业企业家,曾经数亿元出售所创办公司。 王东临还担任OASIS国际工业标准组织UOML-X技术委员会主席,有丰富的按规则管理跨国组织的经验;多年深度参与立法的经验,对法律体系和政府运作有较深的认知。

区块链储存

存储是区块链的最佳应用场景,或者之一,这一点是得到很多人赞同的。

首先介绍什么是区块链存储。区块链存储不是将数据存储在区块链上,而是去中心化存储加上区块链的激励。利用区块链的激励让更多的节点和用户加入到系统中,从而构建更可靠、更低成本和更大规模的存储系统。

中心化存储的可靠性已经达到一个极致,光靠技术改良已经难以解决一些技术以外的因素对数据可靠性和服务稳定性的影响。

例如2018年8月爆出的腾讯云彻底丢失用户数据事件,这是因为硬件故障加运维人员操作失误。上个月Microsoft的Texas数据中心停止服务长达20多个小时,原因是雷电击坏了制冷设备,导致服务器过热停机。

以及2017年AWS的对象存储服务故障(运维人员操作失误)和支付宝停止服务事件(光纤被挖断),更不用说911直接摧毁了很多大型公司的总部。

为了提高持久化存储的可靠性,需要建立分散在全球各地的存储节点,数量越多越分散则数据可靠性更高。

不仅是数据可靠性提高,分散的存储节点还有抗DDos和容灾的效果。几百万个节点,DDos攻击是无法下手的,即使同时瘫痪了1000个节点也根本不影响系统运行

容灾是什么呢?容灾是Disaster Recovery,简称DR,简单说,就是911、地震、火灾等意外事故发生的时候,让IT系统也可以正常运转。

数据是最重要的,软件和应用系统还都可以重装,数据丢了就会带来极为严重的后果。

任何灾难下数据不丢,而且还能提供正常访问,那就好办了。应用服务可以在别的地方另外重启一个虚拟机来提供服务,切换时间只是虚拟机的启动时间,甚至可以做到异地预先启动好虚拟机,只要数据能同步过去而且是最新的就好。

区块链存储系统做持久化存储用的时候,可以看成是全球所有的CPU共享一块大硬盘,直接解决了数据容灾问题,也解决了应用级容灾的核心问题。

容灾是特别昂贵奢侈的服务。Veritas是全球做容灾备份最大的企业,但做了十多年也不过全球累计1000多个客户,实在过于昂贵,除了高盛这种多少钱都买的主之外,其它很少客户买不起。

王东临老师现在在帮助中石油做部分系统的容灾方案,中石油这种IT预算百亿级别的巨头,容灾不可能不做,但都舍不得拿那么多钱把DR做全,甚至连管网数据(指管道埋在什么地方的描述)这样核心的数据都没做DR。

而区块链存储就自带抗DDos这么高难度和容灾这么奢侈的特性。

区块链存储也是有缺点的,作为持久化存储使用的显著缺点就是性能较差,主要体现在延时(Latency)指标上,这是由于存在较大的网络传输延迟造成的。反倒是很多人常用的系统总吞吐量指标(IOPS)可以靠节点数量堆砌的,并不比中心化存储差,甚至更强大。

尽管如此,并不妨碍区块链存储在持久化存储领域具有压倒性的优势。这是因为存储本来就是分层的,每一层作为下一层的缓存,越往上性能越好、单价越贵、容量越小,越往下性能越差、单价越低、容量越大。

区块链就作为最下面一层的持久化存储层,往上还可以有好几层中心化存储作为本地缓存,例如硬盘、SSD、3DXPoint、内存、L3缓存、L2缓存、L1缓存等。

这种分层存储体系本来就是已有的,有区块链存储后无非就是多增加最可靠、最便宜、容量最大也最慢的一层,从原来7层体系增加到8层,代码都是现成的。

区块链存储还有一个应用场景是网络加速,网络加速也需要去中心化,建立分散在全球各地的CDN节点,数量越多离终端用户越近则网络加速效果越好。

区块链存储的成本可以更低,原因有几条:

1.数据去重技术使得存储相同数据占据的硬盘空间减少5-10倍,存储成本大大降低。

2.大部分存储节点只有很少的存储设备,不需要专门的制冷系统(占数据中心耗电的三分之一甚至一半),靠自然通风即可散热,CapEx(购置费用)和OpEx(运维费用)都大幅下降。

3.家用存储矿机无需额外花费带宽费用,无需支付租房成本,家用电费也比工业用电更便宜。

4.对设计得比较好的区块链存储系统来说,绝大多数存储节点无需专业运维工程师驻场,每个节点都自动化运行而且一旦有意外故障失效会有其它节点自动顶上,节省了昂贵的运维费用。

5.还有大量存储节点都是利用闲置硬盘空间,属于沉没成本,边际成本接近零。

由此可见,区块链储存具有比奢侈品还高的品质,比拼多多的山寨货更低的成本,区块链存储比中心化存储具有压倒性的优势。

区块链的激励层在其中可以发挥巨大的作用,利用区块链的激励招募很多矿工节点加入,才能构建数量极多很分散的去中心化存储池。

无需像AWS阿里云那样的巨额投资,这点比较像Airbnb。Airbnb作为去中心化的酒店,很快就成为了世界上最大的酒店,超过了希尔顿等历史悠久的中心化酒店。

Airbnb无需巨额投资全球各地建酒店,自己不拥有任何房间,却是世界上最大的酒店,每天卖出的间夜数最多。

区块链的激励也有利于用户加入,越多用户数据越多去重效率越高。

在网络加速(CDN)领域,区块链存储由于节点数量多、离用户近也具有无可比拟的性能优势,而成本也同样更低。

总之,在持久化存储和网络加速这两个应用领域,区块链存储比中心化存储是可以有压倒性优势的,但能否兑现这个优势还得看各个项目的设计和运行。

例如IPFS/迅雷就针对网络加速市场,不适合做持久化存储,甚至会丢数据。

IPFS是为CDN用途设计的,CDN的特点是不在乎丢数据,只要热点数据被缓冲了就好,CDN没了数据就回源,根本无所谓。但是这样的系统如果用于持久化存储,就是灾难。

据Gartner的数据,以Dell-EMC/NetApp/HDS/IBM/HP为代表的企业级存储,以及以AWS/Google/Microsoft为代表的云存储构成的中心化存储的市场是每年600多亿美元,而且全球数据总量是每27个月翻倍。

网络加速市场不到100亿美元,持久化存储没有专门的市场统计,但应该是最大的一块,粗略估计应该在300亿美元上下,总之两个领域的市场规模加起来是数百亿美元。

区块链存储行业中,最常用的话是同行(hang)是同行(xing)者,区块链存储的对手是中心化存储,我们大家一起挑战中心化存储的霸权,未来甚至有希望占有几百亿美元市场。

哪怕先抢到1%,几亿美元规模,相当于几十亿人民币,大概也比今天所有区块链系统(不限于存储)创造的直接效益(炒币的赢利不算)都要多了。

数据去重

下面介绍一下数据去重的概念。

如果多个人拥有相同的数据,不重复存储而是合并共用同一份空间,称为去重(即去掉重复数据),也称为重删(即重复数据删除)。

注意数据去重和冗余存储是不同层面的概念。即使是去重后只存一份数据,这份数据也必须用冗余编码分成很多碎片,分别保存在多个不同节点上,即使其中有部分节点数据丢失也不影响数据的完整性。这么多个节点上存储的碎片合起来称为一份数据。

这两个概念之所以有时候会产生误导或混淆,是因为有一种最简单的冗余算法是多副本存储,例如IPFS。这种情况下,多个用户拥有的相同数据会通过去重而只保存一份,但这一份是有多个副本。

数据重复率与用户数和数据量呈正相关:若用户数越多,数据量越大,则重复率越高

这里有一个可参考的运营数据,360云盘的平均数据重复率是5倍。360云盘还只是单一应用,并且不是规模最大的应用,那么整个区块链存储的数据重复率将远远超过这个倍数。

数据重复率越高,去重之后的平均存储成本就越低。如果平均数据重复率是10倍,则1GB空间平均可以存储10GB的数据,平均存储成本降低10倍。

除了大幅度降低成本外,区块链存储还能利用数据去重特性构建强大的激励模型

例如,一个拥有100GB存储空间的人,如果用来存自己的数据只能存100GB,但如果将该存储资源贡献用于挖矿,再利用挖到的数字货币购买存储空间,将可以储存200GB的数据,并且富余很多数字货币。

这个激励模型非常强大,会直接高强度激励有硬盘空间又能保证7x24小时开机运行的人,不管这个空间自己是否有用都投入进来做矿工,规模扩张非常快。

这样做可能甚至比airbnb打巨额广告的效果都要好,而且整个过程无需补贴,系统甚至还可以收税,是长期可持续的,绝对不是庞氏骗局。

这种“魔法效应”的奥妙就在于100GB的空间平均可以存500GB甚至更多的数据。

总之,借助区块链的激励,去中心化存储就有望超过AWS/Google成为全球最大的存储池,区块链终于有可以落地的强大应用了。

从市场来说,数字货币如果只是指望共识让韭菜来买单,也许是一种方法,但不一定靠谱。最靠谱的还是用户买单,用户为了自己的需求买币用于购买自己所需要的服务。

但现在DApp都还很弱小,如果等DApp发展起来消耗很多的存储空间,这个发展的时间也会非常漫长。

所以一方面要培养DApp,另一方面现实点,从中心化存储挖市场,就是刚才说的几百亿美元市场。

IPFS案例分析

下面介绍区块链存储的头号明星项目IPFS。

IPFS/FileCoin最大的贡献是改变了区块链的挖矿方式。IPFS的“挖矿”方法就是为生态系统奉献存储空间:谁提供的存储空间大、品质好,谁就获得最多的FileCoin作为奖励。

相对于比特币以太坊这种消耗资源来挖矿的模式来说,这是一个巨大的转折和进步,有可能从此改变了区块链的挖矿模式。

但IPFS的底层没有提供数据的安全机制,任何人只要知道了文件的Hash就能任意访问该文件。

这样的设计方式更适合存储网页等公开信息,而不适合存储个人数据和企业数据。所以个人如果用IPFS的话,不小心就会泄露隐私,尤其对于公众人物来说就存在极大的风险。

实际上,IPFS标志性的“取代HTTP”口号也体现了这个无奈,即IPFS的设计是适宜存储网页等公开数据。

IPFS建议在应用层通过文件加密解决部分数据的安全性问题,但这并不是解决数据安全性问题的根本方法。数据安全是高度专业的,如果做基础架构的都做不好,就更别指望在应用层做好,而且在应用层做文件加密也无法解决文件去重的问题,只是这个成本由应用来承担了而已。

由于数据不加密,为了伦理问题,IPFS设计成每个存储节点只有主动ping才能获取该文件的副本,以免暴力色情违反宗教信仰等该存储节点所有者不愿意接受的文件进入该节点。

也就是说一个文件上传后如果没有其它节点ping的话其实全网仍然只有一个副本,很容易丢失。这个机制可以保障热点文件(例如热门音乐)有很多副本不会丢失,但冷门文件就可能会丢失。这就是我刚才说IPFS会丢数据的原因。

下面继续说一下数据加密

对于大公司(例如AWS、Google、Dropbox)提供的中心化存储来说,数据加密是一个亮点,但不是必须的。因为用户可以信赖大公司的品牌、内控体系,指望大公司不会作恶,即使事实上这一点并不是那么可信。

对于去中心化存储来说,数据加密就成为存储个人和企业数据的必备要求。因为去中心化存储的节点本身不可被信任的,根本不知道是什么烂人存了你的数据。

此外,源代码是开放的,而且每个存储节点都可以自由访问。所以,不加密的话一不小心就会泄露重要隐私。

所以个人和企业数据都必须做数据加密,而且是“零知识”的数据加密,即除了数据所有者或其授权者外,其他任何人(包括存储节点的拥有者、系统的设计者和开发者)对该数据都一无所知,即使作恶也无法窥视数据。

现在很多中心化存储虽然做了加密,但是自己手里有密钥,随时都可以看用户数据,这就不是零知识加密。

在行业中存在一个“公知常识”:数据加密后不能去重。即零知识数据加密与数据去重二者不可兼得,最多只能选一个。

一个表面的原因是数据加密后就变成乱码,无法识别数据重复。这其实并非问题的关键,完全可以保存数据明文的hash值,通过比较hash值来识别重复数据。

加密后去重的核心问题在于数据的授权。即A存储的数据,当B也要存储相同的数据时,如何将A的数据授权给B使用而且还不影响A的数据安全性。既然是零知识加密,怎么可能让B能够使用A的数据呢?

通常这个问题被认为是无解的,所以零知识数据加密与数据去重二者只能选一个。

在这种情况下,IPFS选择了数据去重,牺牲了数据安全性,这就是IPFS设计用于存储网页等公开数据的真正原因。

有一些区块链存储项目选择了数据加密,牺牲了数据去重,虽然保证了数据安全性,但存储成本大幅度上升,而且牺牲了一种极其有效的激励模型。

王东临老师是一个研究密码学和存储的科学家,有100多个专利,其中比较重要的发明就是解决了加密去重的问题。

他在研究加密去重问题不能解决的证明过程的时候,发现证明是不够严谨的,找出了漏洞,就从这个漏洞中找到了解决问题的方法。

这个技术称为TruPrivacy,2015年在全球最大黑客大会DefCon上公开悬赏验证。在敞开服务器任黑客自由出入并给黑客提供管理账户权限的前提下,用满满一箱子100美元现金悬赏,全球顶级黑客联手都未能偷走服务器上存储的用户数据,全身而退!

所以,区块链存储面临这一大问题现在得到了解决!

这个技术在全球都申请了专利,而且都已经审核完成全部都授权了。YottaChain利用了TruPrivacy技术,并且在持久化存储领域做了改进。

YottaChain的持久化存储服务统一采用冗余编码,任何数据自动编码成分成N(例如100)个碎片,其中只要有任意M(例如70)个碎片即可恢复出数据,然后将这N个碎片分别存储到N个存储节点中,每个节点保存一个碎片,这样只要不同时有N-M+1(本例中为31)个节点失效就能保证数据完整不丢失。

YottaChain还提供无缝迁移中心化存储的应用的机制,让区块链存储与中心化存储二进制兼容。包括但不限于块存储、NAS存储和对象存储。使得中心化存储的应用无需重新开发、无需修改代码、无需重新编译,可以无缝迁移直接使用YottaChain存储。

按照同行(hang)是同行(xing)的理念,YottaChain不将自己的专业能力和独家技术用做消灭同行的武器,而是建立开放平台,共享给整个行业

各家区块链存储系统通过一个区块链存储协议BSP对接YottaChain区块链存储开放平台,即可享有YottaChain的专业能力和核心技术,包括在存储上的专业能力,在数据安全包括加密和授权管理的专业能力,与中心化应用无缝对接的专业能力,以及TruPrivacy技术。

而且运行在开放平台上的区块链存储系统可以共享数据去重的红利。支持BSP协议的区块链存储系统越多,数据去重对存储空间的放大倍数就越多,所有区块链存储系统都可以享受到该放大倍数。

例如一个区块链存储系统有1万台矿机,合计有10PB存储空间,自身的数据重复率是1.6,在利用YottaChain开放平台的加密去重能力后可以销售16PB的数据空间,与YottaChain生态共享“数据去重”红利后去重的放大系数提高到5倍,即可以销售50PB的数据空间。

总而言之,存储是区块链的最佳应用场景,或者之一。区块链存储在规模达几百亿美元的市场上有压倒性的优势。IPFS/FileCoin开创了很好的局面,YottaChain在加密去重、持久化存储和企业应用无缝对接等方面也有贡献。希望同行一起同行,大家共同做好区块链存储的落地应用!

猜你喜欢

转载自blog.csdn.net/weixin_34113237/article/details/87774741