什么是大数据

一、什么是大数据?

  套用官方点的解释就是:

       "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。

(1)大数据特点:
    1,volume--数据量大
    2,varitey--数据种类多,样式多
    3,velocity--数据得实时性产生的速度快
    4,valueless--价值密度低

(2)特性:
    1,记录时序的可以追溯
    2,基于时间的不可变的
    3,高可用性(HA)

(3)主做大数据的网站
     1,cloudera(https://www.cloudera.com/)
     2,hortonworks(https://hortonworks.com/)

3,还有就是不要忘了hadoop的官网世界上最大的开源网站Apache(http://www.apache.org/)

(4)大数据去IOE
      1,IBM   //ibm小型机
      2,Oracle //数据库服务
      3,EMC    //EMC共享存储设备 

(5)大数据的存储单位
   1T=1024G
   1P=1024T
   1E=1024P
   1Z=1024E
   1Y=1024Z
   1N=1024Y(通常我们以上PB的数据就可以算的上大数据了)

(6)大数据和云计算的区别:
云计算:
   1,服务
   2,虚拟化 

大数据
大数据解决了两个方面
   1,存储
         分布式存储
   2,计算 
         分布式计算

我们可以发现
云计算注重的是网络按需提供可动态伸缩的廉价计算服务和虚拟化技术;大数据注重的是对数据的存储和计算;

(7)什么是分布式   简单讲就是: 有分布在不同主机上的进程,来构成的整个应用

(8)不同人眼里的大数据

猜你喜欢

转载自blog.csdn.net/weixin_41122339/article/details/81116857
今日推荐