浅析大数据系统基准以及科学问题 - 代码天地

浅析大数据系统基准以及科学问题

企业开发 2019-07-28 14:31:00 阅读次数: 0

能在单用户和多用户模型下执行SQL查询。br/>NoSQL基准
NoSQL数据库能够高效地处理半结构化和无结构数据,这对大数据集中占较大比例的无结构数据非常适用。Yahoo开发了它的云服务基准——YCSB,用于评价NoSQL数据库。YCSB由产生工作负载的客户和一个标准负载包构成，负载包覆盖了部分性能空间,如大量读操作负载、大量写操作负载和扫描负载.这三种负载可针对Cassandra,HBase,PNUTs和简单的共享MySQL等4种数据存储系统运行.其他一些研究扩展了YCSB框架，集成了一些高级特征，例如预分割、大容量加载和服务器方过滤等。
Ghazal等基于生产零售模型第一次提出了一个端到端的大数据基准——BigBench,由两个主要部件构成:数据生成器和工作负载查询规范。数据生成器可以产生结构化、半结构化和无结构数据这三种类型的原始数据;查询规范则根据McKinsey报告中生产零售商的典型特征,定义了查询类型、数据处理语言和分析算法的类型.BigBench覆盖了大数据系统的“3Vs”特性。
必贝yo云数据（http://www.bbeyo.com），作为国内基于大数据方面的数据积累、数据分析和标签归类人工智能AI技术驱动的大数据交易平台，支持海量数据的分布式采集、计算及处理，从而以机器学习推动数据交易发展，让数据价值最大化。互联网开放数据、企业内部数据接入，清洗、过滤、脱敏处理后再交易，以数据和算法规则等形态沉淀在数据交易平台，满足企业对数据分析、数据运营及精准营销等方面的需求。互联网开放数据、企业内部数据接入，清洗、过滤、脱敏处理后再交易，以数据和算法规则等形态沉垫，实现企业和政府的数字化转型。联系电话：0351-6106588，0351-6106599，公司邮箱[email protected]，
公司地址：太原市小店区东中环南段259号亲海国际1幢A座24层2422号，山西奇畅飞科技有限公司
二、大数据科学问题
大数据系统面临的许多挑战需要通过后续的研究解决。在整个大数据生命周期中,从大数据平台和处理模型到应用场景等各方面,都存在一些值得研究的方向。
大数据基础平台
尽管Hadoop已成为大数据分析的主流框架,但是和发展了40余年的RDBMS系统相比,大数据平台还远未成熟。首先,Hadoop需要集成实时的数据采集和传输机制,提供非批处理方式的快速处理机制。其次,Hadoop提供了一个简化的用户编程接口，隐藏了复杂后台执行的细节,这种简化在一定程度会降低处理性能。应该设计类似于DBMS系统的更先进的接口,从多个角度优化Hadoop性能。再次,大规模Hadoop集群由成千上万甚至几十万台服务器构成,要消耗大量的能量。Hadoop能否大范围部署取决于其能量效率.此外,基础平台的研究还包括海量数据分布式存储管理,实时索引查询,大数据平台功耗,以及海量数据实时采集、传输和处理等问题。Hu等提出了一个基于SDN的大数据平台,用于社交TV数据分析。必贝yo云数据（http://www.bbeyo.com）
大数据应用
大数据的研究刚刚起步,典型大数据应用的研究能够给商业带来利润,提高政府部门效率,并且促进人类科学的发展.主要的应用场景有:图数据并行计算模型和框架,社会网络分析、排名和推荐，web信息挖掘和检索,媒体分析检索和自然语言处理。
处理模式
现有的批处理模式难以适应海量数据实时处理的需求,需要设计新的实时处理模式.在传统的批处理模式中,数据首先被存储,随后扫描整个数据集并进行处理得到分析结果,时间极大地浪费在数据传输、存储和重复扫描上.新的实时处理模式可以减少这种浪费.例如,现场(in-situ)分析可以避免因数据传输到集中存储基础设施所带来的开销,从而提高实时性能.大数据系统是个系统问题,
在处理模式上需要考虑多方面因素。一个任务的解决不仅仅是算法的问题,与传输和存储等各方面也有关系.仅从计算复杂度来进行分析并不足够,因为理论上计算复杂度低的算法,实际在机器上运行也不一定快.此外,由于大数据低价值密度的特点,可以采取降维或基于采样的数据分析减少处理的数据量.具体而言,处理模式研究涉及大数据可视化计算分析、大数据处理复杂性问题、并行化深度机器学习和数据挖掘算法、异构数据融合、基于海量数据低价值密度采样问题和高维海量数据降维问题。
大数据隐私
隐私也是大数据领域的重要问题.用户的信息可能会被遭到暴露,比如企业的营销策略、个人的消费习惯等.特别是在电子商务、电子政务和医疗健康领域,隐私保护显得尤其重要,需要增强访问控制.此外,还需要在增强访问控制和数据处理的便利性之间达到一个平衡。
“无限”数据
随着云计算、物网联、移动终端、可穿戴设备等技术的发展,我们已经进入了大数据的时代。然而,产生的数据量也随之日益增长。目前的大数据,在不久的将来还只会是小数据。因此,对于未来的大数据最确切的描述,或许会是“无限”数据。相应地,数据的增量和学习方法会是一个重要的问题。例如,当前用10亿个样本训练了一个分类器,效果很好,但未来样本数增加到15亿的时候(之前的10亿样本已经不能完全表达数据的特征),就会面临一个问题,是利用15亿个样本重新训练一个分类器,还是利用新增加的5亿个样本来修正原来用10亿个样本训练得到的分类器呢?如果重新训练分类器,这将会造成过大的时间和空间开销,并且可扩展性差.以往,为了避免重复学习历史样本和减少后继的训练时间,我们可以采用增量学习的方法,即利用历史学习的结果和新增加的样本来修正之前的分类器.但面对不断演化的“无限”大数据,是否需要研究新型的增量学习方法,从而动态自适应地进行预测并确保模型的准确性,或许将会是大数据未来发展需要解决的重要问题。
今天介绍了大数据系统基准和科学问题部分，后面会继续带大家认识不一样的大数据。大家通过增加对大数据的理解与认知来扩大个人的发展空间

猜你喜欢

转载自blog.51cto.com/14465882/2424135

浅析大数据系统基准以及科学问题

什么是科学问题，大数据考试题

大数据基准测试

数学问题——大数运算

如何提出科学问题

php中json_decode解析bigint大数据的问题以及科学计数法的显示转换

数据科学与大数据

全世界最前沿的125个科学问题

数据科学与大数据技术

数据结构之数学问题

浙大校赛--B（找规律+数学问题+大数）

公钥密码的三大数学问题

大数据技术框架浅析

浅析大数据框架 Hadoop

SCIENCE公布125个最具挑战性科学问题 SCIENCE公布125个最具挑战性科学问题

大数据基准测试BigDataBench4.0安装及使用

大数据基准测试可以带来什么好处？

大数据开源舆情分析系统-数据采集技术架构浅析

Science发布：全世界最前沿的125个科学问题

什么样的科学问题 | 研究项目才是有意义的？| scientific method

Science公布：全世界最前沿的125个科学问题

AlphaFold证明人工智能可以解决基本的科学问题

算法精粹：经典计算机科学问题的Java实现（基于Java 11）

从自然科学基金项目申请看科学问题的凝练 (陈越等)

浅析缓存和数据库数据一致性的高深学问

数据科学之——大数据体系

数据科学与大数据技术专业

大数据中数据科学与业务的联系

数据科学与大数据分析

大四学生整理：一份“不完美”的数据科学问答清单

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)