大数据数据挖掘与云计算-认识大数据

大数据的基本概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(引用百度百科)

数据量单位与换算关系

大数据的特征

维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

  • 大体量(Volume):数据量达到数百TB到数百PB,甚至是EB的规模
  • 多样性(Variety):数据为各种格式与各种类型
  • 时效性(Velocity):数据需要在一定的时间限度下得到及时处理
  • 准确性(Veracity):处理结果要保证一定的准确性
  • 大价值(Value):分析挖掘的结果可以带来重大的经济效益与社会效益

大数据研究的价值

  • 2007年图灵奖获得者吉姆·格雷指出:科学研究将从实验科学、理论科学、计算科学,发展到数据科学;“数据密集型科学发现”将成为科学研究的第四范式;科学研究将从实验科学、理论科学、计算科学发展到目前兴起的数据科学
  • 大数据对世界经济、自然科学、社会科学的发展将会产生重大和深远的影响;物联网的大数据应用是国家大数据战略的重要组成部分,结合物联网应用的大数据研究必将成为物联网研究的重要内容

大数据研究的五个基本方面

  • 可视化分析—物联网大数据分析的可视化能够以非常直观的形式呈现给物联网用户,更容易帮助不同行业的物联网用户从中提取有价值的知识,帮助科学决策
  • 数据挖掘算法—物联网行业应用关系国计民生与生命安全,对数据挖掘结果的时效性、可靠性与可信性要求很高,必须由大数据专家与行业专家合作研究数据挖掘算法
  • 预测性分析能力—对于物联网应用预测性分析十分重要,需要组织行业专家、物联网专家与大数据专家相结合的研究队伍,研究适应不同行业物联网大数据的预测模型与算法
  • 语义引擎—物联网需要一套新的理论与方法来实现对地理位置分布的各种数据资源进行规范和灵活地组织,方便用户通过关键词、标签关键词或其他输入语义的搜索,提高主动获取知识的能力
  • 数据质量与数据管理—不同传感器感知的原始数据的汇聚,多维数据融合、多用户协同感知与数据质量管理,使得处理之后的结果更能够高精度地反映真实面貌,是物联网大数据研究的重点

猜你喜欢

转载自blog.csdn.net/weixin_37079656/article/details/86560760