浅析大数据系统基准以及科学问题

能在单用户和多用户模型下执行SQL查询。br/>NoSQL基准
NoSQL数据库能够高效地处理半结构化和无结构数据,这对大数据集中占较大比例的无结构数据非常适用。Yahoo开发了它的云服务基准——YCSB,用于评价NoSQL数据库。YCSB由产生工作负载的客户和一个标准负载包构成,负载包覆盖了部分性能空间,如大量读操作负载、大量写操作负载和扫描负载.这三种负载可针对Cassandra,HBase,PNUTs和简单的共享MySQL等4种数据存储系统运行.其他一些研究扩展了YCSB框架,集成了一些高级特征,例如预分割、大容量加载和服务器方过滤等。
Ghazal等基于生产零售模型第一次提出了一个端到端的大数据基准——BigBench,由两个主要部件构成:数据生成器和工作负载查询规范。数据生成器可以产生结构化、半结构化和无结构数据这三种类型的原始数据;查询规范则根据McKinsey报告中生产零售商的典型特征,定义了查询类型、数据处理语言和分析算法的类型.BigBench覆盖了大数据系统的“3Vs”特性。
必贝yo云数据(http://www.bbeyo.com),作为国内基于大数据方面的数据积累、数据分析和标签归类人工智能AI技术驱动的大数据交易平台,支持海量数据的分布式采集、计算及处理,从而以机器学习推动数据交易发展,让数据价值最大化。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉淀在数据交易平台,满足企业对数据分析、数据运营及精准营销等方面的需求。互联网开放数据、企业内部数据接入,清洗、过滤、脱敏处理后再交易,以数据和算法规则等形态沉垫,实现企业和政府的数字化转型。联系电话:0351-6106588,0351-6106599,公司邮箱[email protected]
公司地址:太原市小店区东中环南段259号亲海国际1幢A座24层2422号,山西奇畅飞科技有限公司
二、大数据科学问题
大数据系统面临的许多挑战需要通过后续的研究解决。在整个大数据生命周期中,从大数据平台和处理模型到应用场景等各方面,都存在一些值得研究的方向。
大数据基础平台
尽管Hadoop已成为大数据分析的主流框架,但是和发展了40余年的RDBMS系统相比,大数据平台还远未成熟。首先,Hadoop需要集成实时的数据采集和传输机制,提供非批处理方式的快速处理机制。其次,Hadoop提供了一个简化的用户编程接口,隐藏了复杂后台执行的细节,这种简化在一定程度会降低处理性能。应该设计类似于DBMS系统的更先进的接口,从多个角度优化Hadoop性能。再次,大规模Hadoop集群由成千上万甚至几十万台服务器构成,要消耗大量的能量。Hadoop能否大范围部署取决于其能量效率.此外,基础平台的研究还包括海量数据分布式存储管理,实时索引查询,大数据平台功耗,以及海量数据实时采集、传输和处理等问题。Hu等提出了一个基于SDN的大数据平台,用于社交TV数据分析。必贝yo云数据(
http://www.bbeyo.com
大数据应用
大数据的研究刚刚起步,典型大数据应用的研究能够给商业带来利润,提高政府部门效率,并且促进人类科学的发展.主要的应用场景有:图数据并行计算模型和框架,社会网络分析、排名和推荐,web信息挖掘和检索,媒体分析检索和自然语言处理。
处理模式
现有的批处理模式难以适应海量数据实时处理的需求,需要设计新的实时处理模式.在传统的批处理模式中,数据首先被存储,随后扫描整个数据集并进行处理得到分析结果,时间极大地浪费在数据传输、存储和重复扫描上.新的实时处理模式可以减少这种浪费.例如,现场(in-situ)分析可以避免因数据传输到集中存储基础设施所带来的开销,从而提高实时性能.大数据系统是个系统问题,
在处理模式上需要考虑多方面因素。一个任务的解决不仅仅是算法的问题,与传输和存储等各方面也有关系.仅从计算复杂度来进行分析并不足够,因为理论上计算复杂度低的算法,实际在机器上运行也不一定快.此外,由于大数据低价值密度的特点,可以采取降维或基于采样的数据分析减少处理的数据量.具体而言,处理模式研究涉及大数据可视化计算分析、大数据处理复杂性问题、并行化深度机器学习和数据挖掘算法、异构数据融合、基于海量数据低价值密度采样问题和高维海量数据降维问题。
大数据隐私
隐私也是大数据领域的重要问题.用户的信息可能会被遭到暴露,比如企业的营销策略、个人的消费习惯等.特别是在电子商务、电子政务和医疗健康领域,隐私保护显得尤其重要,需要增强访问控制.此外,还需要在增强访问控制和数据处理的便利性之间达到一个平衡。
“无限”数据
随着云计算、物网联、移动终端、可穿戴设备等技术的发展,我们已经进入了大数据的时代。然而,产生的数据量也随之日益增长。目前的大数据,在不久的将来还只会是小数据。因此,对于未来的大数据最确切的描述,或许会是“无限”数据。相应地,数据的增量和学习方法会是一个重要的问题。例如,当前用10亿个样本训练了一个分类器,效果很好,但未来样本数增加到15亿的时候(之前的10亿样本已经不能完全表达数据的特征),就会面临一个问题,是利用15亿个样本重新训练一个分类器,还是利用新增加的5亿个样本来修正原来用10亿个样本训练得到的分类器呢?如果重新训练分类器,这将会造成过大的时间和空间开销,并且可扩展性差.以往,为了避免重复学习历史样本和减少后继的训练时间,我们可以采用增量学习的方法,即利用历史学习的结果和新增加的样本来修正之前的分类器.但面对不断演化的“无限”大数据,是否需要研究新型的增量学习方法,从而动态自适应地进行预测并确保模型的准确性,或许将会是大数据未来发展需要解决的重要问题。
今天介绍了大数据系统基准和科学问题部分,后面会继续带大家认识不一样的大数据。大家通过增加对大数据的理解与认知来扩大个人的发展空间

猜你喜欢

转载自blog.51cto.com/14465882/2424135
今日推荐